ε-greedy (epsilon-greedy)
L’ε-greedy (epsilon-greedy) est une stratégie d’exploration-exploitation utilisée dans l’apprentissage par renforcement, particulièrement dans les méthodes de Q-learning. L’idée est simple : dans la plupart des situations, l’agent exploite ses connaissances actuelles pour choisir l’action avec la valeur Q la plus élevée (l’action la meilleure selon l’agent). Cependant, avec une probabilité de ε (epsilon), l’agent choisit une action aléatoire pour explorer de nouvelles options et potentiellement découvrir de meilleures actions.
Cela permet à l’agent de ne pas se bloquer dans une solution locale en l’incitant à explorer l’environnement.
Formule :
À chaque étape de décision, avec une probabilité ε, l’agent choisira une action aléatoire (exploration). Sinon (avec une probabilité de 1-ε), il choisira l’action qui maximise la fonction de valeur Q (exploitation).
Où :
-
est la valeur d’action pour un état et une action .
-
est un paramètre qui contrôle l’exploration.