Architectures modernes

Transformers et mécanismes d’attention

Le traitement des données séquentielles a longtemps reposé sur les réseaux récurrents (RNN, LSTM, GRU). Cependant, depuis 2017, une nouvelle architecture a révolutionné ce domaine : le Transformer. Basé principalement sur un mécanisme appelé attention, le Transformer est devenu la pierre angulaire des modèles de langage modernes, tels que BERT, GPT, et bien d’autres.
En savoir plus

Modèles de langage de grande taille (GPT, BERT, T5…)

GPT (Generative Pre-trained Transformer) : Hugging Face a rendu l’utilisation de GPT (et d’autres modèles comme BERT) extrêmement facile grâce à sa bibliothèque Transformers.
BERT (Bidirectional Encoder Representations from Transformers) : BertTokenizer est une classe de la bibliothèque transformers qui permet de pré-traiter du texte pour un modèle BERT (Bidirectional Encoder Representations from Transformers). Le tokenizer est responsable de la conversion du texte brut en une séquence d’indices d’entités que le modèle peut comprendre.
T5 (Text-to-Text Transfer Transformer) : T5Tokenizer est un tokenizer spécialisé pour le modèle T5 (Text-to-Text Transfer Transformer) développé par Google. T5 est un modèle pré-entraîné qui transforme tous les problèmes de NLP en une tâche de type « texte-à-texte ».

Modèles hybrides (CNN + RNN, attention + CNN)

Les modèles hybrides combinent les forces de plusieurs architectures d’intelligence artificielle, comme les Convolutional Neural Networks (CNN) et les Recurrent Neural Networks (RNN), ou encore l’intégration de mécanismes d’attention avec des CNN. Ces modèles sont conçus pour résoudre des tâches complexes en exploitant les capacités de chaque type de réseau. L’objectif est de tirer parti des caractéristiques spécifiques de chaque architecture pour traiter efficacement des données variées, comme les images, le texte ou les séries temporelles.
En savoir plus