Principe de base et agents d’apprentissage

L’apprentissage par renforcement (Reinforcement Learning, ou RL) est un domaine de l’intelligence artificielle dans lequel un agent intelligent apprend à interagir avec un environnement de manière optimale, en recevant des récompenses en fonction de ses actions. Contrairement à l’apprentissage supervisé, le RL ne dispose pas de données étiquetées mais repose sur l’exploration, l’expérience et l’amélioration continue.

Cette page explore les notions fondamentales qui structurent tout système d’apprentissage par renforcement : environnement, agent, politique, récompense, valeur, et fonction Q. Ces concepts sont essentiels pour comprendre comment fonctionne un agent autonome capable d’apprendre des comportements optimaux dans des situations complexes.


🌍 Environnement

Définition

L’environnement est le monde ou le système avec lequel un agent interagit. Il peut s’agir d’un simulateur, d’un jeu vidéo, d’un robot physique dans un espace réel, ou même d’un marché boursier. Dans un cadre mathématique, l’environnement est modélisé comme un processus de décision de Markov (Markov Decision Process – MDP), où chaque état dépend uniquement de l’état précédent et de l’action effectuée.

Composants d’un environnement

Exemple concret

Dans un jeu de labyrinthe, l’environnement serait la grille elle-même. Chaque case représente un état, les directions possibles (haut, bas, gauche, droite) sont les actions, et l’objectif (sortie du labyrinthe) fournit une récompense positive, tandis qu’une case piège pourrait donner une récompense négative.


🧑‍💻 Agent

Définition

L’agent est l’entité autonome qui prend des décisions dans un environnement. Son objectif est d’apprendre une politique qui maximise les récompenses cumulées au fil du temps. Il peut être représenté par un algorithme ou un programme, capable de :

Comportement adaptatif

Un agent ne connaît pas initialement les règles exactes de son environnement. Il apprend en essayant des actions et en analysant leurs conséquences. L’apprentissage se fait en équilibrant exploration (tester de nouvelles actions) et exploitation (utiliser les actions qui rapportent le plus).


🎯 Politique (Policy)

Définition

La politique est une fonction notée π\pi qui mappe chaque état à une action :

π(s)=a\pi(s) = a

 

Cela représente la stratégie que suit l’agent pour décider quoi faire dans chaque situation.

Importance

Une bonne politique permet à l’agent de maximiser les récompenses attendues. Elle est donc au cœur de tout système d’apprentissage par renforcement. Apprendre une politique optimale, notée π\pi^*, est l’objectif principal de l’agent.


🏆 Récompense (Reward)

Définition

La récompense est une rétroaction immédiate donnée par l’environnement à l’agent suite à une action. Elle est notée rtr_t à l’instant tt.

Fonction de récompense

Elle est souvent définie comme une fonction R(s,a,s)R(s, a, s’) qui associe une récompense à la transition entre deux états suite à une action.

Objectif

L’agent cherche à maximiser la somme des récompenses sur une période donnée, qu’on appelle le return :

Gt=rt+1+γrt+2+γ2rt+3+=k=0γkrt+k+1G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}

γ\gamma est le facteur de décroissance (discount factor), qui détermine l’importance accordée aux récompenses futures.


💰 Valeur (Value)

Définition

La valeur d’un état V(s)V(s) est l’espérance de récompenses futures que l’agent peut obtenir à partir de cet état en suivant une politique donnée π\pi.

Vπ(s)=Eπ[t=0γtrt+1s0=s]V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_0 = s \right]

 

Pourquoi est-ce utile ?

Plutôt que d’évaluer uniquement les actions immédiates, la fonction de valeur permet à l’agent d’évaluer la rentabilité à long terme d’un état. Cela l’aide à prendre des décisions stratégiques plutôt que réactives.

Valeur optimale

V(s)=maxπVπ(s)V^*(s) = \max_\pi V^\pi(s)

 

Il s’agit de la meilleure valeur qu’un agent puisse espérer atteindre depuis un état ss , en suivant une politique optimale.


🔢 Q-Function (fonction Q)

Définition

La fonction Q, ou fonction d’action-valeur Q(s,a)Q(s, a), est une extension de la fonction de valeur. Elle évalue la qualité d’une action spécifique dans un état donné :

Qπ(s,a)=Eπ[t=0γtrt+1s0=s,a0=a]Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t r_{t+1} \mid s_0 = s, a_0 = a \right]

 

Pourquoi l’utiliser ?

Alors que V(s)V(s) indique la valeur d’un état, Q(s,a)Q(s, a) indique quelle action choisir. C’est particulièrement utile lorsque l’agent n’a pas de modèle de transition clair de l’environnement.

Fonction Q optimale

Q(s,a)=maxπQπ(s,a)Q^*(s, a) = \max_\pi Q^\pi(s, a)

 

Mise à jour (Q-Learning)

Un algorithme célèbre utilisant la fonction Q est le Q-learning, où la mise à jour suit la règle :

Q(st,at)Q(st,at)+α[rt+1+γmaxaQ(st+1,a)Q(st,at)]Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left[ r_{t+1} + \gamma \max_a Q(s_{t+1}, a) – Q(s_t, a_t) \right]

 

α\alpha est le taux d’apprentissage.


🧩 Relations entre les concepts

Concept Définition courte Rôle dans le RL
Environnement Monde interactif Fournit états et récompenses
Agent Décideur intelligent Prend des actions
Politique Stratégie de décision Guide l’agent
Récompense Rétroaction immédiate Signal d’apprentissage
Valeur Espérance des récompenses Évalue les états
Fonction Q Valeur état-action Choix optimal d’action

⚖️ Exploration vs Exploitation

Un agent doit trouver un équilibre entre :

Des méthodes comme epsilon-greedy ou softmax permettent de gérer ce dilemme.


🧠 Agents d’apprentissage populaires

1. Q-Learning Agent

2. SARSA (State-Action-Reward-State-Action)

3. Deep Q-Network (DQN)

4. Policy Gradient Agents


📈 Vers le Deep Reinforcement Learning

Le couplage du RL avec le deep learning a permis des avancées spectaculaires, notamment :

L’apprentissage par renforcement profond repose souvent sur des réseaux de neurones convolutifs (CNN) ou réseaux récurrents (RNN), intégrés dans la fonction Q ou dans la politique.


📚 Pour aller plus loin