Transformers et mécanismes d’attention

Introduction

Le traitement des données séquentielles a longtemps reposé sur les réseaux récurrents (RNN, LSTM, GRU). Cependant, depuis 2017, une nouvelle architecture a révolutionné ce domaine : le Transformer. Basé principalement sur un mécanisme appelé attention, le Transformer est devenu la pierre angulaire des modèles de langage modernes, tels que BERT, GPT, et bien d’autres.

Dans cet article, nous allons explorer en détail :

Le principe fondamental des mécanismes d’attention
La structure du Transformer
Les types d’attention (self-attention, multi-head attention)
Les avantages majeurs des Transformers par rapport aux RNNs classiques
Une comparaison technique et des exemples d’application

Pourquoi une nouvelle architecture ?

Les RNN et leurs variantes (LSTM, GRU) traitent les séquences de manière séquentielle : ils parcourent les données élément par élément. Cette nature séquentielle rend l’entraînement lent et limite la parallélisation. De plus, même avec LSTM ou GRU, il reste difficile de capturer des dépendances très longues dans la séquence.

Le Transformer est une architecture qui élimine complètement les connexions récurrentes ou convolutives. Il repose uniquement sur des mécanismes d’attention, permettant d’analyser l’ensemble de la séquence simultanément. Cette innovation a permis :

D’augmenter drastiquement la vitesse d’entraînement grâce à la parallélisation
De mieux capturer les relations entre éléments lointains dans la séquence
De construire des modèles très puissants et généraux

Le mécanisme d’attention : concept fondamental

L’attention, dans le contexte des réseaux neuronaux, est un mécanisme permettant au modèle de se concentrer sur différentes parties d’une séquence d’entrée lors du traitement d’un élément donné. Plutôt que de traiter uniquement l’élément courant et son état caché (comme dans un RNN), le modèle regarde toute la séquence et décide quelles parties sont les plus pertinentes.

Schéma d’attention simple

Attention dite « Scaled Dot-Product » (produit scalaire)

Le Transformer utilise un type d’attention appelé scaled dot-product attention. Voici comment elle fonctionne.

Chaque élément d’entrée est transformé en trois vecteurs :

Query (Q) : ce que l’on cherche
Key (K) : ce qu’on peut comparer
Value (V) : ce qu’on récupère comme information

L’attention calcule la similarité entre la requête (query) et toutes les clés (key) via un produit scalaire, puis applique une fonction softmax pour obtenir des poids (scores d’attention), et enfin fait la somme pondérée des valeurs (value) correspondantes.

Formule mathématique :

$\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V$

$Q$ est une matrice des vecteurs queries
$K$ est une matrice des vecteurs keys
$V$ est une matrice des vecteurs values
$d_k$ est la dimension des vecteurs keys (utilisée pour normaliser le produit scalaire)

Schéma explicatif

Input vectors (embedding)
┌──────────┐ ┌──────────┐ ┌──────────┐
│ Query │ │ Key │ │ Value │
└──────────┘ └──────────┘ └──────────┘
│ │ │
└───> Produit scalaire Q*K^T (mesure similarité)
. │
. ┌───────────────┐
. │ softmax(QK^T) │ -> poids d’attention
. └───────────────┘
. │
. Multiplication par V (valeurs)
. │
. Résultat attention

Multi-head attention

Au lieu d’appliquer une seule fois le mécanisme d’attention, le Transformer l’applique plusieurs fois en parallèle, dans ce qu’on appelle des têtes d’attention (multi-head).

Chaque tête apprend à se focaliser sur différents aspects de la séquence. Par exemple, une tête peut apprendre à détecter la relation sujet-verbe, une autre à détecter des relations temporelles, etc.

Calcul multi-head

Chaque tête calcule une attention scaled dot-product avec ses propres matrices $W_Q, W_K, W_V$ (poids spécifiques)
Les sorties des différentes têtes sont concaténées puis projetées dans l’espace de sortie

Schéma :

Architecture générale du Transformer

Le Transformer se compose essentiellement de deux parties :

Encodeur : transforme la séquence d’entrée en une représentation contextuelle riche
Décodeur : génère la séquence de sortie à partir de cette représentation

Chaque bloc encodeur ou décodeur est composé de :

Une couche de multi-head attention
Une couche feed-forward position-wise (réseau de neurones simple appliqué à chaque position indépendamment)
Des normalisations (LayerNorm) et des connexions résiduelles pour stabiliser l’apprentissage

Schéma simplifié d’un encodeur Transformer

Le décodeur est similaire mais ajoute une couche d’attention masquée sur la sortie partielle générée, pour empêcher de regarder le futur (propriétés causales).

Pourquoi ajouter des embeddings positionnels ?

Contrairement aux RNN, les Transformers traitent toute la séquence en parallèle, donc ils ne reçoivent pas d’information intrinsèque sur l’ordre des éléments.

Pour remédier à cela, on ajoute à chaque vecteur d’entrée un embedding positionnel, qui encode la position de chaque élément dans la séquence, afin que le modèle puisse exploiter l’ordre.

Avantages des Transformers

Parallélisation complète : traitement simultané de la séquence
Meilleure gestion des dépendances longues grâce à l’attention globale
Flexibilité : fonctionne sur différents types de données (texte, images, audio)
Modularité : la même architecture peut être utilisée pour encoder ou décoder

Applications concrètes

Traitement du langage naturel : traduction, résumé automatique, génération de texte
Vision par ordinateur : vision transformers (ViT) pour classification d’image
Audio et musique : reconnaissance vocale, génération musicale
Bioinformatique : analyse de séquences ADN

Conclusion

Les Transformers et leurs mécanismes d’attention ont profondément transformé le domaine du deep learning séquentiel. Leur capacité à traiter efficacement les séquences tout en capturant des relations complexes à long terme en fait des modèles très puissants et polyvalents. Ils ont remplacé peu à peu les architectures récurrentes dans de nombreux domaines.