Actor-Critic Methods

Les méthodes Actor-Critic sont une classe d’algorithmes d’apprentissage par renforcement qui combinent les approches basées sur la politique (Actor) et sur la valeur (Critic). Ces méthodes utilisent un acteur pour déterminer la politique (quelle action prendre) et un critique pour évaluer cette politique (quelle est la qualité de l’action prise). Cette séparation permet d’améliorer l’efficacité de l’apprentissage.

  1. Actor : Le rôle de l’acteur est de proposer une politique (fonction qui mappe un état donné à une action). L’acteur met à jour la politique en fonction des retours du critique.

  2. Critic : Le rôle du critique est d’évaluer la performance de l’acteur en calculant la valeur de l’état actuel ou l’avantage de l’action prise (souvent en utilisant une fonction de valeur V(s)V(s) ou une fonction d’avantage A(s,a)A(s, a)).

Formules :

L’algorithme Actor-Critic met à jour la politique en utilisant le gradient de la politique avec un terme d’avantage :

θt+1=θt+αθlogπθ(st,at)δt\theta_{t+1} = \theta_t + \alpha \nabla_{\theta} \log \pi_{\theta}(s_t, a_t) \delta_t

Où :

  • α\alpha est le taux d’apprentissage.

  • δt=rt+γV(st+1)V(st)\delta_t = r_t + \gamma V(s_{t+1}) – V(s_t) est le terme d’avantage, où rtr_t est la récompense obtenue à l’instant tt et V(s)V(s) est la fonction de valeur de l’état.