Decay de ε (epsilon decay)
La stratégie ε-decay est une modification de la méthode ε-greedy dans laquelle le paramètre ε (qui contrôle la probabilité d’explorer) diminue progressivement au fur et à mesure que l’agent apprend et que l’exploration devient moins nécessaire. Cela permet à l’agent de commencer par explorer largement l’environnement (avec un ε élevé) et de se concentrer sur l’exploitation de ses connaissances à mesure que l’agent devient plus compétent. La décroissance de ε est souvent réalisée de manière exponentielle ou linéaire.
Formule :
Une façon courante de faire décroître ε est d’utiliser la formule suivante à chaque épisode :
Ou bien un modèle linéaire où :
Où :
-
decay_rate : Facteur de réduction de ε.
-
ε_min : Valeur minimale de ε en dessous de laquelle il ne décroit pas.
-
decay_step : Le nombre d’épisodes après lesquels ε diminue.