Decay de ε (epsilon decay)

La stratégie ε-decay est une modification de la méthode ε-greedy dans laquelle le paramètre ε (qui contrôle la probabilité d’explorer) diminue progressivement au fur et à mesure que l’agent apprend et que l’exploration devient moins nécessaire. Cela permet à l’agent de commencer par explorer largement l’environnement (avec un ε élevé) et de se concentrer sur l’exploitation de ses connaissances à mesure que l’agent devient plus compétent. La décroissance de ε est souvent réalisée de manière exponentielle ou linéaire.

Formule :

Une façon courante de faire décroître ε est d’utiliser la formule suivante à chaque épisode :

$\epsilon_{\text{new}} = \epsilon_{\text{old}} \times \text{decay\_rate}$

Ou bien un modèle linéaire où :

$\epsilon_{\text{new}} = \max(\epsilon_{\text{min}}, \epsilon_{\text{old}} – \epsilon_{\text{decay\_step}})$

Où :

decay_rate : Facteur de réduction de ε.
ε_min : Valeur minimale de ε en dessous de laquelle il ne décroit pas.
decay_step : Le nombre d’épisodes après lesquels ε diminue.