Principe de base et agents d’apprentissage
L’apprentissage par renforcement (Reinforcement Learning, ou RL) est un domaine de l’intelligence artificielle dans lequel un agent intelligent apprend à interagir avec un environnement de manière optimale, en recevant des récompenses en fonction de ses actions. Contrairement à l’apprentissage supervisé, le RL ne dispose pas de données étiquetées mais repose sur l’exploration, l’expérience et l’amélioration continue.
Cette page explore les notions fondamentales qui structurent tout système d’apprentissage par renforcement : environnement, agent, politique, récompense, valeur, et fonction Q. Ces concepts sont essentiels pour comprendre comment fonctionne un agent autonome capable d’apprendre des comportements optimaux dans des situations complexes.
🌍 Environnement
Définition
L’environnement est le monde ou le système avec lequel un agent interagit. Il peut s’agir d’un simulateur, d’un jeu vidéo, d’un robot physique dans un espace réel, ou même d’un marché boursier. Dans un cadre mathématique, l’environnement est modélisé comme un processus de décision de Markov (Markov Decision Process – MDP), où chaque état dépend uniquement de l’état précédent et de l’action effectuée.
Composants d’un environnement
-
État (State, s) : une représentation de la situation actuelle.
-
Espace d’états (S) : l’ensemble des états possibles.
-
Actions possibles (A) : les mouvements ou décisions disponibles à l’agent.
-
Fonction de transition : définit la probabilité de passer d’un état à un autre après une action.
-
Fonction de récompense (R) : mesure la qualité de l’action effectuée.
Exemple concret
Dans un jeu de labyrinthe, l’environnement serait la grille elle-même. Chaque case représente un état, les directions possibles (haut, bas, gauche, droite) sont les actions, et l’objectif (sortie du labyrinthe) fournit une récompense positive, tandis qu’une case piège pourrait donner une récompense négative.
🧑💻 Agent
Définition
L’agent est l’entité autonome qui prend des décisions dans un environnement. Son objectif est d’apprendre une politique qui maximise les récompenses cumulées au fil du temps. Il peut être représenté par un algorithme ou un programme, capable de :
-
Observer l’état de l’environnement.
-
Choisir une action à effectuer.
-
Recevoir une récompense en retour.
-
Mettre à jour ses connaissances en conséquence.
Comportement adaptatif
Un agent ne connaît pas initialement les règles exactes de son environnement. Il apprend en essayant des actions et en analysant leurs conséquences. L’apprentissage se fait en équilibrant exploration (tester de nouvelles actions) et exploitation (utiliser les actions qui rapportent le plus).
🎯 Politique (Policy)
Définition
La politique est une fonction notée qui mappe chaque état à une action :
Cela représente la stratégie que suit l’agent pour décider quoi faire dans chaque situation.
-
Politique déterministe : chaque état mène à une action précise.
-
Politique stochastique : chaque état mène à une distribution de probabilités sur les actions.
Importance
Une bonne politique permet à l’agent de maximiser les récompenses attendues. Elle est donc au cœur de tout système d’apprentissage par renforcement. Apprendre une politique optimale, notée , est l’objectif principal de l’agent.
🏆 Récompense (Reward)
Définition
La récompense est une rétroaction immédiate donnée par l’environnement à l’agent suite à une action. Elle est notée à l’instant .
-
Positive : l’action a eu un effet bénéfique.
-
Négative : l’action a eu un effet néfaste.
-
Nulle : l’action n’a pas eu d’effet mesurable.
Fonction de récompense
Elle est souvent définie comme une fonction qui associe une récompense à la transition entre deux états suite à une action.
Objectif
L’agent cherche à maximiser la somme des récompenses sur une période donnée, qu’on appelle le return :
où est le facteur de décroissance (discount factor), qui détermine l’importance accordée aux récompenses futures.
💰 Valeur (Value)
Définition
La valeur d’un état est l’espérance de récompenses futures que l’agent peut obtenir à partir de cet état en suivant une politique donnée .
Pourquoi est-ce utile ?
Plutôt que d’évaluer uniquement les actions immédiates, la fonction de valeur permet à l’agent d’évaluer la rentabilité à long terme d’un état. Cela l’aide à prendre des décisions stratégiques plutôt que réactives.
Valeur optimale
Il s’agit de la meilleure valeur qu’un agent puisse espérer atteindre depuis un état , en suivant une politique optimale.
🔢 Q-Function (fonction Q)
Définition
La fonction Q, ou fonction d’action-valeur , est une extension de la fonction de valeur. Elle évalue la qualité d’une action spécifique dans un état donné :
Pourquoi l’utiliser ?
Alors que indique la valeur d’un état, indique quelle action choisir. C’est particulièrement utile lorsque l’agent n’a pas de modèle de transition clair de l’environnement.
Fonction Q optimale
Mise à jour (Q-Learning)
Un algorithme célèbre utilisant la fonction Q est le Q-learning, où la mise à jour suit la règle :
où est le taux d’apprentissage.
🧩 Relations entre les concepts
Concept | Définition courte | Rôle dans le RL |
---|---|---|
Environnement | Monde interactif | Fournit états et récompenses |
Agent | Décideur intelligent | Prend des actions |
Politique | Stratégie de décision | Guide l’agent |
Récompense | Rétroaction immédiate | Signal d’apprentissage |
Valeur | Espérance des récompenses | Évalue les états |
Fonction Q | Valeur état-action | Choix optimal d’action |
⚖️ Exploration vs Exploitation
Un agent doit trouver un équilibre entre :
-
Explorer l’environnement pour découvrir de nouvelles stratégies.
-
Exploiter les stratégies qui semblent les plus rentables actuellement.
Des méthodes comme epsilon-greedy ou softmax permettent de gérer ce dilemme.
🧠 Agents d’apprentissage populaires
1. Q-Learning Agent
-
Utilise une table Q pour apprendre.
-
Apprentissage hors politique (off-policy).
-
Simple mais limité dans les grands espaces d’états.
2. SARSA (State-Action-Reward-State-Action)
-
Apprentissage sur la politique (on-policy).
-
Met à jour la Q-table avec l’action réellement choisie.
3. Deep Q-Network (DQN)
-
Remplace la Q-table par un réseau de neurones.
-
Permet d’utiliser le RL dans des environnements à haute dimension comme les jeux Atari.
4. Policy Gradient Agents
-
Apprennent directement la politique sans passer par la Q-table.
-
Exemples : REINFORCE, PPO (Proximal Policy Optimization), A3C.
📈 Vers le Deep Reinforcement Learning
Le couplage du RL avec le deep learning a permis des avancées spectaculaires, notamment :
-
Agents capables de battre des humains à des jeux d’arcade.
-
Robotique adaptative.
-
Optimisation de systèmes complexes (finance, industrie, etc.).
L’apprentissage par renforcement profond repose souvent sur des réseaux de neurones convolutifs (CNN) ou réseaux récurrents (RNN), intégrés dans la fonction Q ou dans la politique.
📚 Pour aller plus loin
-
Livre recommandé : Reinforcement Learning: An Introduction par Sutton & Barto.
-
Bibliothèques Python :
-
Stable Baselines3
-
OpenAI Gym
(environnement standard) -
Ray RLlib
(scalabilité)
-
-
Cours en ligne :
-
DeepMind x UCL
-
fast.ai – Practical Deep Learning for Coders
-
Coursera – Reinforcement Learning Specialization
-