Principe de base et agents d’apprentissage
L’apprentissage par renforcement (Reinforcement Learning, RL) est un paradigme du machine learning dans lequel un agent autonome apprend à interagir avec un environnement afin de maximiser une récompense cumulative au fil du temps. Contrairement à l’apprentissage supervisé, il n’exige pas de paires entrée-sortie étiquetées, mais repose sur un mécanisme d’essais-erreurs guidé par des signaux de récompense.
Principe fondamental
Le processus d’apprentissage repose sur une boucle d’interaction continue entre l’agent et l’environnement :
-
L’agent perçoit l’état actuel de l’environnement.
-
Il choisit une action à exécuter selon une stratégie (ou politique).
-
L’environnement retourne un nouvel état et une récompense associée à l’action prise.
-
L’agent utilise cette récompense pour adapter sa politique et améliorer ses futures décisions.
Ce cycle forme la base de la formulation mathématique par les processus de décision de Markov (MDP), utilisée pour modéliser les environnements RL.
Agents d’apprentissage
Les agents dans l’apprentissage par renforcement peuvent adopter différentes stratégies d’apprentissage :
-
Agents basés sur la valeur : ils apprennent une fonction de valeur (comme Q-learning) qui estime la qualité d’une action dans un état donné, afin de choisir la meilleure action possible.
-
Agents basés sur la politique : ils apprennent directement une politique optimale (comme avec la méthode REINFORCE), sans passer par une estimation de valeur.
-
Agents acteurs-critique (Actor-Critic) : ils combinent les deux approches précédentes, avec un module qui prend des décisions (l’acteur) et un autre qui évalue ces décisions (le critique).
Conclusion
Le RL constitue une approche puissante pour résoudre des problèmes complexes impliquant prise de décision séquentielle, exploration de l’environnement et apprentissage autonome. Il est à la base de nombreuses avancées récentes, notamment en robotique, dans les jeux (comme AlphaGo) ou encore en systèmes de recommandation adaptatifs.