Aller au contenu principal
AGlossaire IA

Attention

Mécanisme central des transformers qui permet au modèle de pondérer l'importance de chaque mot du contexte.

Définition complète

L'attention est l'innovation de 2017 qui a déclenché toute la révolution des LLMs modernes. Avant, les modèles de langage traitaient les phrases mot après mot (architectures RNN/LSTM), avec deux problèmes majeurs : c'est lent et le modèle "oublie" les mots éloignés.

Le mécanisme d'attention résout les deux : pour générer chaque token, le modèle calcule un score d'attention vers TOUS les autres tokens du contexte. Le mot "il" dans "Marc a vu Pierre, il était content" peut alors regarder massivement vers "Marc" et comprendre qu'il s'agit de Marc. Ce calcul se fait en parallèle sur toute la séquence — d'où la rapidité.

C'est ce qu'on appelle le "self-attention" : chaque token regarde tous les autres tokens, y compris lui-même, à travers des projections appelées Query, Key et Value. Le tout est répété sur plusieurs "têtes" en parallèle (multi-head attention) qui capturent différents types de relations (grammaticales, sémantiques, etc.).

Le papier fondateur s'appelle "Attention Is All You Need" (Vaswani et al., 2017) et a donné naissance à toutes les architectures transformer qui dominent l'IA aujourd'hui.

Approfondir

Tu veux maîtriser Attention en pratique ?

Le module "L'IA démystifiée — le socle" couvre attention en profondeur, avec démonstrations interactives et exercices.

Découvrir le module →

Termes liés