SARSA (State-Action-Reward-State-Action)

Le SARSA (State-Action-Reward-State-Action) est une méthode d’apprentissage par renforcement qui, tout comme le Q-learning, utilise une table Q pour représenter la fonction de valeur d’une politique. Cependant, la différence principale entre SARSA et Q-learning réside dans la manière dont les valeurs Q sont mises à jour. Tandis que Q-learning utilise la valeur de l’action la plus optimale possible à partir de l’état suivant (approche off-policy), SARSA utilise la valeur de l’action effectivement choisie à partir de l’état suivant (approche on-policy).

Formule de mise à jour de la fonction Q dans SARSA :

Q(st,at)Q(st,at)+α(rt+γQ(st+1,at+1)Q(st,at))Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha \left( r_t + \gamma Q(s_{t+1}, a_{t+1}) – Q(s_t, a_t) \right)

Où :

  • sts_t et ata_t sont l’état et l’action actuels.

  • rtr_t est la récompense obtenue après l’action ata_t.

  • st+1s_{t+1} et at+1a_{t+1} sont l’état suivant et l’action choisie dans cet état.

  • γ\gamma est le facteur de discount.

  • α\alpha est le taux d’apprentissage.