Loading [MathJax]/extensions/tex2jax.js

Principe de base et agents d’apprentissage

L’apprentissage par renforcement (Reinforcement Learning, RL) est un paradigme du machine learning dans lequel un agent autonome apprend à interagir avec un environnement afin de maximiser une récompense cumulative au fil du temps. Contrairement à l’apprentissage supervisé, il n’exige pas de paires entrée-sortie étiquetées, mais repose sur un mécanisme d’essais-erreurs guidé par des signaux de récompense.

Principe fondamental

Le processus d’apprentissage repose sur une boucle d’interaction continue entre l’agent et l’environnement :

  1. L’agent perçoit l’état actuel de l’environnement.

  2. Il choisit une action à exécuter selon une stratégie (ou politique).

  3. L’environnement retourne un nouvel état et une récompense associée à l’action prise.

  4. L’agent utilise cette récompense pour adapter sa politique et améliorer ses futures décisions.

Ce cycle forme la base de la formulation mathématique par les processus de décision de Markov (MDP), utilisée pour modéliser les environnements RL.


Agents d’apprentissage

Les agents dans l’apprentissage par renforcement peuvent adopter différentes stratégies d’apprentissage :


Conclusion

Le RL constitue une approche puissante pour résoudre des problèmes complexes impliquant prise de décision séquentielle, exploration de l’environnement et apprentissage autonome. Il est à la base de nombreuses avancées récentes, notamment en robotique, dans les jeux (comme AlphaGo) ou encore en systèmes de recommandation adaptatifs.