Bases des réseaux : du perceptron aux couches denses

Les réseaux de neurones artificiels représentent une des pierres angulaires de l’intelligence artificielle moderne et du machine learning. Inspirés du fonctionnement du cerveau humain, ces modèles permettent aux ordinateurs d’apprendre à partir de données, de reconnaître des motifs complexes, et de réaliser des tâches variées telles que la classification, la régression, la reconnaissance d’images ou encore le traitement du langage naturel.

Comprendre les bases des réseaux neuronaux est essentiel pour toute personne qui souhaite se spécialiser en data science ou en intelligence artificielle. Cet article propose une exploration progressive, débutant avec le perceptron — la première unité de calcul neuronal artificiel —, avant d’évoluer vers les architectures multicouches et la notion de couches denses, fondamentales dans le deep learning.

Le perceptron : l’unité fondamentale des réseaux de neurones

Le perceptron, introduit en 1958 par Frank Rosenblatt, est le premier modèle mathématique qui tente de simuler un neurone biologique. Sa simplicité est remarquable : il s’agit d’un classifieur linéaire capable de séparer des données dans un espace n-dimensionnel en deux classes distinctes.

Concrètement, le perceptron reçoit en entrée un vecteur de caractéristiques numériques $\mathbf{x} = (x_1, x_2, …, x_n)$ . Chaque caractéristique est associée à un poids $\mathbf{w} = (w_1, w_2, …, w_n)$ , qui représente l’importance de cette caractéristique dans la décision finale. Le perceptron calcule alors une somme pondérée des entrées, ajoute un biais $b$ , et passe ce résultat dans une fonction d’activation de type seuil. Cette fonction d’activation est un simple test : si la somme est positive, la sortie est 1, sinon 0.

Formellement, on écrit :

$y = \begin{cases} 1 & \text{si } \sum_{i=1}^n w_i x_i + b > 0 \\ 0 & \text{sinon} \end{cases}$

L’idée centrale est que le perceptron trace une frontière linéaire dans l’espace des entrées. Tous les points d’un côté sont classés 1, ceux de l’autre côté 0.

L’apprentissage du perceptron

Pour que le perceptron classe correctement des données, il faut déterminer les poids $\mathbf{w}$ et le biais $b$ adéquats. Cela se fait par un algorithme itératif simple : on commence avec des poids initiaux (souvent nuls ou aléatoires), puis on présente chaque exemple d’entraînement au perceptron. Si la prédiction est correcte, on ne fait rien. Sinon, on ajuste les poids et le biais pour réduire l’erreur.

Cette mise à jour suit la règle :

$w_i \leftarrow w_i + \eta (t – y) x_i$ $b \leftarrow b + \eta (t – y)$

où $t$ est la vraie étiquette, $y$ la prédiction du perceptron, et $\eta$ le taux d’apprentissage (un paramètre fixé qui contrôle la taille des modifications).

Ce mécanisme d’apprentissage est simple mais puissant dans les cas où les données sont linéairement séparables. Cela signifie qu’il existe une frontière droite (ou hyperplan dans un espace multidimensionnel) qui peut parfaitement séparer les classes.

Limites du perceptron

Le perceptron ne peut pas résoudre des problèmes où les classes ne sont pas séparables linéairement. Le cas classique est celui de la fonction XOR : les données ne peuvent pas être divisées par une ligne droite. Cette limitation a freiné le développement des réseaux neuronaux pendant plusieurs années.

Du neurone artificiel simple aux réseaux multicouches

Pour dépasser ces limitations, il a fallu rendre les modèles plus puissants. Cela a conduit à deux innovations majeures : utiliser des fonctions d’activation non linéaires, et superposer plusieurs couches de neurones.

Fonctions d’activation non linéaires

Le perceptron utilise une fonction seuil, une fonction discontinue qui ne permet pas de modéliser des relations complexes. En remplaçant cette fonction par des fonctions continues et différentiables comme la sigmoïde, la tangente hyperbolique (tanh) ou la fonction ReLU (Rectified Linear Unit), on permet au réseau d’apprendre des transformations non linéaires.

La fonction sigmoïde transforme un réel en une valeur entre 0 et 1, facilitant l’interprétation en probabilités.
La fonction tanh est similaire mais centrée autour de zéro, ce qui facilite la convergence dans certains cas.
La fonction ReLU, très utilisée aujourd’hui, est définie par $f(z) = \max(0, z)$ . Elle est simple à calculer et permet un apprentissage plus rapide et plus stable.

Ces fonctions d’activation introduisent de la complexité et de la puissance dans le modèle.

Réseaux multicouches

En empilant plusieurs couches de neurones, on obtient un réseau capable de modéliser des relations très complexes entre les données et les sorties attendues.

La structure générale d’un réseau multicouche est la suivante :

La couche d’entrée reçoit les données brutes.
Plusieurs couches cachées transforment ces données, chacune appliquant des combinaisons linéaires suivies d’une fonction d’activation non linéaire.
La couche de sortie donne la prédiction finale, par exemple la classe d’appartenance.

Chaque neurone d’une couche est connecté à tous les neurones de la couche suivante — ce type de connexion est appelé couche dense ou pleinement connectée.

Propagation avant

Lorsqu’une donnée est injectée dans le réseau, elle traverse chaque couche successivement. Chaque couche effectue la transformation suivante :

$\mathbf{z}^{(l)} = \mathbf{W}^{(l)} \mathbf{a}^{(l-1)} + \mathbf{b}^{(l)}$ $\mathbf{a}^{(l)} = f(\mathbf{z}^{(l)})$

où $\mathbf{a}^{(l-1)}$ est la sortie de la couche précédente, $\mathbf{W}^{(l)}$ est la matrice des poids, $\mathbf{b}^{(l)}$ le vecteur de biais, et $f$ la fonction d’activation.

Ainsi, chaque couche transforme son entrée en une nouvelle représentation, que la couche suivante affine à son tour.

Apprentissage par rétropropagation : ajuster les poids pour apprendre

Pour que le réseau fasse des prédictions justes, il faut ajuster ses poids. Cette optimisation se fait en minimisant une fonction de coût qui mesure l’écart entre les prédictions et les vraies valeurs.

La méthode la plus utilisée est l’algorithme de rétropropagation combiné au gradient descendant.

La rétropropagation calcule, grâce à la règle de la chaîne, le gradient de la fonction de coût par rapport à chaque poids du réseau.
Le gradient indique la direction dans laquelle il faut modifier les poids pour réduire l’erreur.
On met à jour chaque poids en se déplaçant dans la direction opposée au gradient, avec une vitesse contrôlée par le taux d’apprentissage.

Ce processus est répété sur de nombreux exemples, entraînant le réseau à affiner ses paramètres.

Comprendre les couches denses : la base des réseaux profonds

Les couches denses sont constituées de neurones pleinement connectés, c’est-à-dire que chaque neurone d’une couche reçoit les sorties de tous les neurones de la couche précédente.

Cette configuration permet au réseau d’apprendre toutes les interactions possibles entre les caractéristiques, ce qui est particulièrement utile quand on travaille avec des données tabulaires ou des représentations globales.

Une couche dense applique la transformation suivante :

$\mathbf{a} = f(\mathbf{W} \mathbf{x} + \mathbf{b})$

Ici, $\mathbf{x}$ est le vecteur d’entrée, $\mathbf{W}$ la matrice des poids, $\mathbf{b}$ le biais, et $f$ la fonction d’activation.

Pourquoi les couches denses sont-elles puissantes ?

Parce qu’elles combinent linéairement toutes les entrées et peuvent ensuite appliquer des non-linéarités, elles permettent au réseau d’explorer un espace de fonctions très riche.

En multipliant les couches, on crée des hiérarchies d’abstractions : les premières couches apprennent des motifs simples, et les couches suivantes combinent ces motifs pour représenter des concepts plus complexes.

Inconvénients et limites

Les couches denses ont aussi leurs limites. Le nombre de paramètres (poids + biais) croît rapidement avec la taille de la couche, ce qui peut conduire à :

Un coût computationnel élevé, rendant l’entraînement long.
Un risque élevé de surapprentissage (le modèle apprend par cœur les données d’entraînement mais ne généralise pas bien aux nouvelles données).

Pour pallier cela, on utilise des techniques comme :

La régularisation $L_1$ ou $L_2$ , qui pénalisent les poids trop grands.
Le dropout, qui éteint aléatoirement certains neurones pendant l’entraînement pour éviter la co-dépendance.

Exemple concret : un réseau simple pour une tâche de classification

Pour illustrer ces concepts, prenons un exemple d’un réseau simple destiné à un problème de classification binaire.

Supposons que nous ayons 10 caractéristiques en entrée. Notre réseau comprend :

Une couche dense cachée avec 5 neurones et activation ReLU.
Une couche dense de sortie avec 1 neurone et activation sigmoïde, qui produit une probabilité.

Le passage d’une entrée $\mathbf{x}$ à la sortie est :

$\mathbf{z}^{(1)} = \mathbf{W}^{(1)} \mathbf{x} + \mathbf{b}^{(1)}$ $\mathbf{a}^{(1)} = \text{ReLU}(\mathbf{z}^{(1)})$ $z^{(2)} = \mathbf{W}^{(2)} \mathbf{a}^{(1)} + b^{(2)}$ $a^{(2)} = \sigma(z^{(2)})$

La sortie $a^{(2)}$ est une probabilité que l’échantillon appartienne à la classe 1.

Optimisation et bonnes pratiques pour l’entraînement

L’efficacité d’un réseau dépend en grande partie des choix faits lors de l’entraînement.

Initialisation des poids

Si les poids sont initialisés de manière inappropriée (par exemple tous nuls ou trop grands), le réseau peut avoir du mal à apprendre. Des méthodes d’initialisation adaptées comme Xavier ou He permettent d’éviter ces problèmes.

Taux d’apprentissage

Ce paramètre détermine la vitesse d’ajustement des poids. Un taux trop élevé peut faire diverger l’apprentissage, un taux trop faible ralentit la convergence.

Batch training

Les données d’entraînement sont souvent divisées en petits groupes appelés batches. Chaque itération ajuste les poids sur un batch, ce qui accélère l’entraînement et stabilise les gradients.

Conclusion

Les réseaux de neurones, à partir du simple perceptron, ont considérablement évolué pour devenir des architectures profondes capables d’apprendre des représentations complexes. Les couches denses restent la base de ces modèles, combinant les entrées par des poids appris et appliquant des fonctions d’activation non linéaires.

Comprendre ces mécanismes est fondamental avant d’aborder des architectures plus complexes comme les réseaux convolutifs (CNN), récurrents (RNN) ou les transformeurs. Ces fondations permettent aussi de mieux interpréter le fonctionnement des modèles et d’optimiser leur entraînement pour obtenir de meilleures performances.