Q-Learning
Le Q-Learning est un algorithme de renforcement (reinforcement learning) utilisé pour apprendre la politique optimale d’un agent dans un environnement. L’agent cherche à maximiser une fonction de récompense cumulée en interagissant avec cet environnement, en prenant des actions et en recevant des récompenses basées sur ces actions.
Le cœur de l’algorithme est l’apprentissage de la fonction Q, qui associe à chaque couple état-action une valeur représentant la « qualité » de l’action prise dans cet état. L’objectif du Q-learning est d’apprendre cette fonction Q, qui permet à l’agent de choisir la meilleure action à chaque étape.
Formule de mise à jour de la fonction Q :
La mise à jour de la fonction Q suit la règle suivante :
-
: valeur actuelle de la fonction Q pour l’état et l’action
-
: taux d’apprentissage
-
: récompense obtenue après avoir pris l’action dans l’état
-
: facteur de discount qui indique l’importance des récompenses futures
-
: la valeur maximale de la fonction Q dans le prochain état , pour toutes les actions possibles