Q-Learning

Le Q-Learning est un algorithme de renforcement (reinforcement learning) utilisé pour apprendre la politique optimale d’un agent dans un environnement. L’agent cherche à maximiser une fonction de récompense cumulée en interagissant avec cet environnement, en prenant des actions et en recevant des récompenses basées sur ces actions.

Le cœur de l’algorithme est l’apprentissage de la fonction Q, qui associe à chaque couple état-action une valeur représentant la « qualité » de l’action prise dans cet état. L’objectif du Q-learning est d’apprendre cette fonction Q, qui permet à l’agent de choisir la meilleure action à chaque étape.

Formule de mise à jour de la fonction Q :

La mise à jour de la fonction Q suit la règle suivante :

Q(st,at)Q(st,at)+α(rt+γmaxaQ(st+1,a)Q(st,at))Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left( r_t + \gamma \max_a Q(s_{t+1}, a) – Q(s_t, a_t) \right)

  • Q(st,at)Q(s_t, a_t) : valeur actuelle de la fonction Q pour l’état sts_t et l’action ata_t

  • α\alpha : taux d’apprentissage

  • rtr_t : récompense obtenue après avoir pris l’action ata_t dans l’état sts_t

  • γ\gamma : facteur de discount qui indique l’importance des récompenses futures

  • maxaQ(st+1,a)\max_a Q(s_{t+1}, a) : la valeur maximale de la fonction Q dans le prochain état st+1s_{t+1}, pour toutes les actions possibles aa