Principe de base et agents d’apprentissage

L’apprentissage par renforcement (Reinforcement Learning, ou RL) est un domaine de l’intelligence artificielle dans lequel un agent intelligent apprend à interagir avec un environnement de manière optimale, en recevant des récompenses en fonction de ses actions. Contrairement à l’apprentissage supervisé, le RL ne dispose pas de données étiquetées mais repose sur l’exploration, l’expérience et l’amélioration continue.

Cette page explore les notions fondamentales qui structurent tout système d’apprentissage par renforcement : environnement, agent, politique, récompense, valeur, et fonction Q. Ces concepts sont essentiels pour comprendre comment fonctionne un agent autonome capable d’apprendre des comportements optimaux dans des situations complexes.

🌍 Environnement

Définition

L’environnement est le monde ou le système avec lequel un agent interagit. Il peut s’agir d’un simulateur, d’un jeu vidéo, d’un robot physique dans un espace réel, ou même d’un marché boursier. Dans un cadre mathématique, l’environnement est modélisé comme un processus de décision de Markov (Markov Decision Process – MDP), où chaque état dépend uniquement de l’état précédent et de l’action effectuée.

Composants d’un environnement

État (State, s) : une représentation de la situation actuelle.
Espace d’états (S) : l’ensemble des états possibles.
Actions possibles (A) : les mouvements ou décisions disponibles à l’agent.
Fonction de transition : définit la probabilité de passer d’un état à un autre après une action.
Fonction de récompense (R) : mesure la qualité de l’action effectuée.

Exemple concret

Dans un jeu de labyrinthe, l’environnement serait la grille elle-même. Chaque case représente un état, les directions possibles (haut, bas, gauche, droite) sont les actions, et l’objectif (sortie du labyrinthe) fournit une récompense positive, tandis qu’une case piège pourrait donner une récompense négative.

🧑‍💻 Agent

Définition

L’agent est l’entité autonome qui prend des décisions dans un environnement. Son objectif est d’apprendre une politique qui maximise les récompenses cumulées au fil du temps. Il peut être représenté par un algorithme ou un programme, capable de :

Observer l’état de l’environnement.
Choisir une action à effectuer.
Recevoir une récompense en retour.
Mettre à jour ses connaissances en conséquence.

Comportement adaptatif

Un agent ne connaît pas initialement les règles exactes de son environnement. Il apprend en essayant des actions et en analysant leurs conséquences. L’apprentissage se fait en équilibrant exploration (tester de nouvelles actions) et exploitation (utiliser les actions qui rapportent le plus).

🎯 Politique (Policy)

Définition

La politique est une fonction notée $\pi$ qui mappe chaque état à une action :

$\pi(s) = a$

Cela représente la stratégie que suit l’agent pour décider quoi faire dans chaque situation.

Politique déterministe : chaque état mène à une action précise.
Politique stochastique : chaque état mène à une distribution de probabilités sur les actions.

Importance

Une bonne politique permet à l’agent de maximiser les récompenses attendues. Elle est donc au cœur de tout système d’apprentissage par renforcement. Apprendre une politique optimale, notée $\pi^*$ , est l’objectif principal de l’agent.

🏆 Récompense (Reward)

Définition

La récompense est une rétroaction immédiate donnée par l’environnement à l’agent suite à une action. Elle est notée $r_t$ à l’instant $t$ .

Positive : l’action a eu un effet bénéfique.
Négative : l’action a eu un effet néfaste.
Nulle : l’action n’a pas eu d’effet mesurable.

Fonction de récompense

Elle est souvent définie comme une fonction $R(s, a, s’)$ qui associe une récompense à la transition entre deux états suite à une action.

Objectif

L’agent cherche à maximiser la somme des récompenses sur une période donnée, qu’on appelle le return :

$G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}$

où $\gamma$ est le facteur de décroissance (discount factor), qui détermine l’importance accordée aux récompenses futures.

💰 Valeur (Value)

Définition

La valeur d’un état $V(s)$ est l’espérance de récompenses futures que l’agent peut obtenir à partir de cet état en suivant une politique donnée $\pi$ .

$V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_0 = s \right]$

Pourquoi est-ce utile ?

Plutôt que d’évaluer uniquement les actions immédiates, la fonction de valeur permet à l’agent d’évaluer la rentabilité à long terme d’un état. Cela l’aide à prendre des décisions stratégiques plutôt que réactives.

Valeur optimale

$V^*(s) = \max_\pi V^\pi(s)$

Il s’agit de la meilleure valeur qu’un agent puisse espérer atteindre depuis un état $s$ , en suivant une politique optimale.

🔢 Q-Function (fonction Q)

Définition

La fonction Q, ou fonction d’action-valeur $Q(s, a)$ , est une extension de la fonction de valeur. Elle évalue la qualité d’une action spécifique dans un état donné :

$Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_0 = s, a_0 = a \right]$

Pourquoi l’utiliser ?

Alors que $V(s)$ indique la valeur d’un état, $Q(s, a)$ indique quelle action choisir. C’est particulièrement utile lorsque l’agent n’a pas de modèle de transition clair de l’environnement.

Fonction Q optimale

$Q^*(s, a) = \max_\pi Q^\pi(s, a)$

Mise à jour (Q-Learning)

Un algorithme célèbre utilisant la fonction Q est le Q-learning, où la mise à jour suit la règle :

$Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left[ r_{t+1} + \gamma \max_a Q(s_{t+1}, a) – Q(s_t, a_t) \right]$

où $\alpha$ est le taux d’apprentissage.

🧩 Relations entre les concepts

Concept	Définition courte	Rôle dans le RL
Environnement	Monde interactif	Fournit états et récompenses
Agent	Décideur intelligent	Prend des actions
Politique	Stratégie de décision	Guide l’agent
Récompense	Rétroaction immédiate	Signal d’apprentissage
Valeur	Espérance des récompenses	Évalue les états
Fonction Q	Valeur état-action	Choix optimal d’action

⚖️ Exploration vs Exploitation

Un agent doit trouver un équilibre entre :

Explorer l’environnement pour découvrir de nouvelles stratégies.
Exploiter les stratégies qui semblent les plus rentables actuellement.

Des méthodes comme epsilon-greedy ou softmax permettent de gérer ce dilemme.

🧠 Agents d’apprentissage populaires

1. Q-Learning Agent

Utilise une table Q pour apprendre.
Apprentissage hors politique (off-policy).
Simple mais limité dans les grands espaces d’états.

2. SARSA (State-Action-Reward-State-Action)

Apprentissage sur la politique (on-policy).
Met à jour la Q-table avec l’action réellement choisie.

3. Deep Q-Network (DQN)

Remplace la Q-table par un réseau de neurones.
Permet d’utiliser le RL dans des environnements à haute dimension comme les jeux Atari.

4. Policy Gradient Agents

Apprennent directement la politique sans passer par la Q-table.
Exemples : REINFORCE, PPO (Proximal Policy Optimization), A3C.

📈 Vers le Deep Reinforcement Learning

Le couplage du RL avec le deep learning a permis des avancées spectaculaires, notamment :

Agents capables de battre des humains à des jeux d’arcade.
Robotique adaptative.
Optimisation de systèmes complexes (finance, industrie, etc.).

L’apprentissage par renforcement profond repose souvent sur des réseaux de neurones convolutifs (CNN) ou réseaux récurrents (RNN), intégrés dans la fonction Q ou dans la politique.

📚 Pour aller plus loin

Livre recommandé : Reinforcement Learning: An Introduction par Sutton & Barto.
Bibliothèques Python :
- Stable Baselines3
- OpenAI Gym (environnement standard)
- Ray RLlib (scalabilité)
Cours en ligne :
- DeepMind x UCL
- fast.ai – Practical Deep Learning for Coders
- Coursera – Reinforcement Learning Specialization