ε-greedy (epsilon-greedy)

L’ε-greedy (epsilon-greedy) est une stratégie d’exploration-exploitation utilisée dans l’apprentissage par renforcement, particulièrement dans les méthodes de Q-learning. L’idée est simple : dans la plupart des situations, l’agent exploite ses connaissances actuelles pour choisir l’action avec la valeur Q la plus élevée (l’action la meilleure selon l’agent). Cependant, avec une probabilité de ε (epsilon), l’agent choisit une action aléatoire pour explorer de nouvelles options et potentiellement découvrir de meilleures actions.

Cela permet à l’agent de ne pas se bloquer dans une solution locale en l’incitant à explorer l’environnement.

Formule :

À chaque étape de décision, avec une probabilité ε, l’agent choisira une action aléatoire (exploration). Sinon (avec une probabilité de 1-ε), il choisira l’action qui maximise la fonction de valeur Q (exploitation).

Action={action aleˊatoireavec probabiliteˊ ϵargmaxaQ(s,a)avec probabiliteˊ 1ϵ\text{Action} = \begin{cases} \text{action aléatoire} & \text{avec probabilité } \epsilon \\ \arg\max_a Q(s, a) & \text{avec probabilité } 1 – \epsilon \end{cases}

Où :

  • Q(s,a)Q(s, a) est la valeur d’action pour un état ss et une action aa.

  • ϵ\epsilon est un paramètre qui contrôle l’exploration.