SARSA (State-Action-Reward-State-Action)
Le SARSA (State-Action-Reward-State-Action) est une méthode d’apprentissage par renforcement qui, tout comme le Q-learning, utilise une table Q pour représenter la fonction de valeur d’une politique. Cependant, la différence principale entre SARSA et Q-learning réside dans la manière dont les valeurs Q sont mises à jour. Tandis que Q-learning utilise la valeur de l’action la plus optimale possible à partir de l’état suivant (approche off-policy), SARSA utilise la valeur de l’action effectivement choisie à partir de l’état suivant (approche on-policy).
Formule de mise à jour de la fonction Q dans SARSA :
Où :
-
et sont l’état et l’action actuels.
-
est la récompense obtenue après l’action .
-
et sont l’état suivant et l’action choisie dans cet état.
-
est le facteur de discount.
-
est le taux d’apprentissage.