Attention
Mécanisme central des transformers qui permet au modèle de pondérer l'importance de chaque mot du contexte.
Définition complète
L'attention est l'innovation de 2017 qui a déclenché toute la révolution des LLMs modernes. Avant, les modèles de langage traitaient les phrases mot après mot (architectures RNN/LSTM), avec deux problèmes majeurs : c'est lent et le modèle "oublie" les mots éloignés.
Le mécanisme d'attention résout les deux : pour générer chaque token, le modèle calcule un score d'attention vers TOUS les autres tokens du contexte. Le mot "il" dans "Marc a vu Pierre, il était content" peut alors regarder massivement vers "Marc" et comprendre qu'il s'agit de Marc. Ce calcul se fait en parallèle sur toute la séquence — d'où la rapidité.
C'est ce qu'on appelle le "self-attention" : chaque token regarde tous les autres tokens, y compris lui-même, à travers des projections appelées Query, Key et Value. Le tout est répété sur plusieurs "têtes" en parallèle (multi-head attention) qui capturent différents types de relations (grammaticales, sémantiques, etc.).
Le papier fondateur s'appelle "Attention Is All You Need" (Vaswani et al., 2017) et a donné naissance à toutes les architectures transformer qui dominent l'IA aujourd'hui.
Approfondir
Tu veux maîtriser Attention en pratique ?
Le module "L'IA démystifiée — le socle" couvre attention en profondeur, avec démonstrations interactives et exercices.
Découvrir le module →