Attention

Définition complète

L'attention est l'innovation de 2017 qui a déclenché toute la révolution des LLMs modernes. Avant, les modèles de langage traitaient les phrases mot après mot (architectures RNN/LSTM), avec deux problèmes majeurs : c'est lent et le modèle "oublie" les mots éloignés.

Le mécanisme d'attention résout les deux : pour générer chaque token, le modèle calcule un score d'attention vers TOUS les autres tokens du contexte. Le mot "il" dans "Marc a vu Pierre, il était content" peut alors regarder massivement vers "Marc" et comprendre qu'il s'agit de Marc. Ce calcul se fait en parallèle sur toute la séquence — d'où la rapidité.

C'est ce qu'on appelle le "self-attention" : chaque token regarde tous les autres tokens, y compris lui-même, à travers des projections appelées Query, Key et Value. Le tout est répété sur plusieurs "têtes" en parallèle (multi-head attention) qui capturent différents types de relations (grammaticales, sémantiques, etc.).

Le papier fondateur s'appelle "Attention Is All You Need" (Vaswani et al., 2017) et a donné naissance à toutes les architectures transformer qui dominent l'IA aujourd'hui.

Définition complète

Tu veux maîtriser Attention en pratique ?

Termes liés