Fonctions d’activations (ReLU, Sigmoid, Tanh)

Les fonctions d’activation sont des éléments essentiels dans les réseaux de neurones artificiels. Elles introduisent des non-linéarités dans le réseau, permettant ainsi au modèle d’apprendre des relations complexes entre les données. Sans fonctions d’activation, les réseaux de neurones se comporteraient essentiellement comme une simple combinaison linéaire de leurs entrées, ce qui limiterait leur capacité à résoudre des problèmes non linéaires.

Voici une description des principales fonctions d’activation utilisées dans les réseaux de neurones :

ReLU (Rectified Linear Unit)

La fonction ReLU est la plus utilisée dans les réseaux de neurones modernes. Elle remplace toutes les valeurs négatives par zéro, ce qui introduit de la non-linéarité tout en gardant des calculs simples et efficaces.

Formule: f(x) = max(0, x)
Avantages : rapide, réduit le problème du gradient qui disparaît.
Inconvénients : peut entraîner des neurones « morts » si x < 0 en permanence.
Variantes : LeakyReLU, ParametricReLU, ELU.

Sigmoid (fonction logistique)

La fonction sigmoid transforme n’importe quelle valeur en une sortie entre 0 et 1, ce qui en fait un bon choix pour les problèmes de classification binaire ou de probabilité.

Formule: f(x) = 1 / (1 + exp(-x))
Avantages : sortie bornée, interprétation probabiliste.
Inconvénients : saturation pour les valeurs extrêmes, provoque le problème du gradient qui disparaît.
Utilisée souvent en couche de sortie pour la classification binaire.

Tanh (Tangente hyperbolique)

La fonction Tanh est similaire à la Sigmoid, mais elle transforme les entrées en valeurs comprises entre -1 et 1, ce qui permet des sorties centrées autour de zéro.

Formule: f(x) = (exp(x) – exp(-x)) / (exp(x) + exp(-x))
Avantages : centrée sur zéro, souvent meilleure que sigmoid pour les couches cachées.
Inconvénients : saturation et gradient qui disparaît pour les entrées extrêmes.