Transformer
Architecture de réseau de neurones qui a révolutionné le traitement du langage en 2017.
Définition complète
Le transformer est l'architecture qui a tout fait basculer en IA depuis 2017. Avant, le traitement du langage utilisait des architectures récurrentes (RNN, LSTM) qui lisaient le texte mot après mot — lent, et avec une mémoire qui s'évanouissait sur les phrases longues.
Le transformer, introduit dans le papier "Attention Is All You Need" (Vaswani et al., 2017), a deux innovations majeures : 1. **Mécanisme d'attention** : chaque token regarde tous les autres tokens en parallèle pour décider lesquels sont pertinents. 2. **Calcul parallèle** : toute la séquence est traitée en même temps, pas mot par mot. Donc beaucoup plus rapide à entraîner sur GPU.
Un transformer typique alterne : - Couches d'attention multi-têtes (multi-head attention) - Couches feed-forward (réseaux denses) - Normalizations et connexions résiduelles
Les variantes modernes : - **Encoder-only** (BERT) : pour la compréhension, classification, embeddings - **Decoder-only** (GPT, Claude, Llama, Mistral) : pour la génération de texte. C'est l'architecture dominante pour les LLMs modernes. - **Encoder-decoder** (T5, BART) : pour la traduction et résumés (moins utilisée aujourd'hui)
Le terme "GPT" signifie d'ailleurs "Generative Pre-trained Transformer". Tous les LLMs modernes (GPT-5, Claude 4.6, Gemini, Llama 4, Mistral) sont basés sur des variantes du transformer. C'est probablement l'une des inventions les plus impactantes de l'histoire récente de l'informatique.
Approfondir
Tu veux maîtriser Transformer en pratique ?
Le module "L'IA démystifiée — le socle" couvre transformer en profondeur, avec démonstrations interactives et exercices.
Découvrir le module →Termes liés
Mécanisme central des transformers qui permet au modèle de pondérer l'importance de chaque mot du contexte.
Large Language Model — modèle de deep learning entraîné sur d'immenses corpus de texte.
Sous-catégorie du machine learning utilisant des réseaux de neurones à plusieurs couches.
Architecture computationnelle inspirée du cerveau, composée de neurones artificiels en couches.