Decay de ε (epsilon decay)

La stratégie ε-decay est une modification de la méthode ε-greedy dans laquelle le paramètre ε (qui contrôle la probabilité d’explorer) diminue progressivement au fur et à mesure que l’agent apprend et que l’exploration devient moins nécessaire. Cela permet à l’agent de commencer par explorer largement l’environnement (avec un ε élevé) et de se concentrer sur l’exploitation de ses connaissances à mesure que l’agent devient plus compétent. La décroissance de ε est souvent réalisée de manière exponentielle ou linéaire.

Formule :

Une façon courante de faire décroître ε est d’utiliser la formule suivante à chaque épisode :

ϵnew=ϵold×decay_rate\epsilon_{\text{new}} = \epsilon_{\text{old}} \times \text{decay\_rate}

Ou bien un modèle linéaire où :

ϵnew=max(ϵmin,ϵoldϵdecay_step)\epsilon_{\text{new}} = \max(\epsilon_{\text{min}}, \epsilon_{\text{old}} – \epsilon_{\text{decay\_step}})

Où :

  • decay_rate : Facteur de réduction de ε.

  • ε_min : Valeur minimale de ε en dessous de laquelle il ne décroit pas.

  • decay_step : Le nombre d’épisodes après lesquels ε diminue.