Transformer

Définition complète

Le transformer est l'architecture qui a tout fait basculer en IA depuis 2017. Avant, le traitement du langage utilisait des architectures récurrentes (RNN, LSTM) qui lisaient le texte mot après mot — lent, et avec une mémoire qui s'évanouissait sur les phrases longues.

Le transformer, introduit dans le papier "Attention Is All You Need" (Vaswani et al., 2017), a deux innovations majeures : 1. **Mécanisme d'attention** : chaque token regarde tous les autres tokens en parallèle pour décider lesquels sont pertinents. 2. **Calcul parallèle** : toute la séquence est traitée en même temps, pas mot par mot. Donc beaucoup plus rapide à entraîner sur GPU.

Un transformer typique alterne : - Couches d'attention multi-têtes (multi-head attention) - Couches feed-forward (réseaux denses) - Normalizations et connexions résiduelles

Les variantes modernes : - **Encoder-only** (BERT) : pour la compréhension, classification, embeddings - **Decoder-only** (GPT, Claude, Llama, Mistral) : pour la génération de texte. C'est l'architecture dominante pour les LLMs modernes. - **Encoder-decoder** (T5, BART) : pour la traduction et résumés (moins utilisée aujourd'hui)

Le terme "GPT" signifie d'ailleurs "Generative Pre-trained Transformer". Tous les LLMs modernes (GPT-5, Claude 4.6, Gemini, Llama 4, Mistral) sont basés sur des variantes du transformer. C'est probablement l'une des inventions les plus impactantes de l'histoire récente de l'informatique.

Définition complète

Tu veux maîtriser Transformer en pratique ?

Termes liés