Proximal Policy Optimization (PPO)

Proximal Policy Optimization (PPO) est un algorithme d’apprentissage par renforcement qui optimise la politique de manière stable et efficace. Il fait partie des méthodes basées sur la politique et appartient à la famille des algorithmes à optimisations de politique. L’algorithme PPO vise à mettre à jour la politique de manière régulière tout en garantissant que chaque mise à jour reste « proximale », c’est-à-dire suffisamment petite pour éviter des changements trop drastiques qui pourraient dégrader la performance.

L’idée principale de PPO est d’utiliser un objectif de clipping qui empêche la politique d’être modifiée de manière trop importante, ce qui est une cause fréquente d’instabilité dans les algorithmes d’apprentissage par renforcement.

L’optimisation de PPO repose sur une version simplifiée de la méthode TRPO (Trust Region Policy Optimization), mais avec une complexité calculatoire réduite, ce qui le rend plus adapté aux problèmes complexes.

Formule de mise à jour :

L’objectif de PPO est de maximiser une fonction d’objectif de type « surrogate » :

LCLIP(θ)=E^t[min(rt(θ)A^t,clip(rt(θ),1ϵ,1+ϵ)A^t)]L^{CLIP}(\theta) = \hat{\mathbb{E}}_t \left[ \min \left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right]

Où :

  • rt(θ)r_t(\theta) est le ratio entre la probabilité de l’action sous la politique actuelle et la politique précédente.

  • A^t\hat{A}_t est l’estimation de l’avantage pour l’état sts_t et l’action ata_t.

  • ϵ\epsilon est un hyperparamètre qui définit la quantité de « clip » sur le ratio pour éviter des mises à jour trop grandes.