Algorithmes d’apprentissage par renforcement

Les algorithmes d’apprentissage par renforcement sont des méthodes qui permettent aux agents d’apprendre des politiques optimales pour interagir avec un environnement et maximiser la récompense cumulative. Ces algorithmes varient en fonction de la manière dont ils abordent la représentation des politiques, des valeurs ou des actions. Dans cette sous-section, nous explorerons les algorithmes clés utilisés dans l’apprentissage par renforcement.

Q-Learning

Le Q-Learning est un algorithme de renforcement (reinforcement learning) utilisé pour apprendre la politique optimale d’un agent dans un environnement. L’agent cherche à maximiser une fonction de récompense cumulée en interagissant avec cet environnement, en prenant des actions et en recevant des récompenses basées sur ces actions.

Deep Q-Network

Le Deep Q-Network (DQN) est une extension du Q-learning, une méthode d’apprentissage par renforcement, qui utilise un réseau de neurones profond pour approximer la fonction Q.

SARSA

Le SARSA (State-Action-Reward-State-Action) est une méthode d’apprentissage par renforcement qui, tout comme le Q-learning, utilise une table Q pour représenter la fonction de valeur d’une politique. Cependant, la différence principale entre SARSA et Q-learning réside dans la manière dont les valeurs Q sont mises à jour. Tandis que Q-learning utilise la valeur de l’action la plus optimale possible à partir de l’état suivant (approche off-policy), SARSA utilise la valeur de l’action effectivement choisie à partir de l’état suivant (approche on-policy).

Policy Gradient Methods

Les méthodes de gradient de politique (Policy Gradient Methods) sont une classe d’algorithmes d’apprentissage par renforcement où l’agent apprend directement une fonction de politique (plutôt qu’une fonction de valeur comme dans le Q-learning ou SARSA). Ces méthodes visent à optimiser la politique en ajustant les paramètres de la politique à l’aide de gradients de la fonction de récompense attendue par rapport aux paramètres de la politique.

Actor-Critic Methods

Les méthodes Actor-Critic sont une classe d’algorithmes d’apprentissage par renforcement qui combinent les approches basées sur la politique (Actor) et sur la valeur (Critic). Ces méthodes utilisent un acteur pour déterminer la politique (quelle action prendre) et un critique pour évaluer cette politique (quelle est la qualité de l’action prise).

Proximal Policy Optimization

Proximal Policy Optimization (PPO) est un algorithme d’apprentissage par renforcement qui optimise la politique de manière stable et efficace. Il fait partie des méthodes basées sur la politique et appartient à la famille des algorithmes à optimisations de politique.