Policy Gradient Methods

Les méthodes de gradient de politique (Policy Gradient Methods) sont une classe d’algorithmes d’apprentissage par renforcement où l’agent apprend directement une fonction de politique (plutôt qu’une fonction de valeur comme dans le Q-learning ou SARSA). Ces méthodes visent à optimiser la politique en ajustant les paramètres de la politique à l’aide de gradients de la fonction de récompense attendue par rapport aux paramètres de la politique.

Les algorithmes de gradient de politique utilisent la derivée de la fonction de récompense pour mettre à jour la politique et maximiser la somme des récompenses accumulées. Ces méthodes sont particulièrement utiles dans des environnements complexes avec des espaces d’actions continus ou avec des actions stochastiques.

Formule du Gradient de Politique :

La mise à jour des paramètres θ\theta de la politique est effectuée en utilisant le gradient de la fonction de performance par rapport aux paramètres de la politique θ\theta :

θt+1=θt+αθJ(θ)\theta_{t+1} = \theta_t + \alpha \nabla_{\theta} J(\theta)

Où :

  • α\alpha est le taux d’apprentissage.

  • θJ(θ)\nabla_{\theta} J(\theta) est le gradient de la fonction de performance J(θ)J(\theta).