Token
Unité de base du traitement textuel dans les LLMs — un mot, une partie de mot, ou un signe.
Définition complète
Un token est l'unité atomique de tout LLM. Avant de traiter du texte, le modèle le découpe en tokens, puis prédit le prochain token, le suivant, et ainsi de suite jusqu'à la fin de la réponse.
Un token, ce n'est PAS exactement un mot. C'est plutôt un fragment fréquent appris par l'algorithme de tokenisation (BPE — Byte Pair Encoding pour la plupart des modèles) : - Les mots courts fréquents = 1 token ("le", "the", "is", "chat") - Les mots longs ou rares = plusieurs tokens ("intelligence" = 2 tokens, "anticonstitutionnellement" = 5-6 tokens) - Les espaces et ponctuation comptent - Les langues moins représentées dans l'entraînement utilisent plus de tokens (le japonais, l'arabe peuvent prendre 2-3× plus de tokens que l'anglais pour le même contenu)
Règles pratiques pour le français : - 1 000 tokens ≈ 750 mots - 1 page A4 ≈ 500 tokens - Un email moyen ≈ 200 tokens - Un livre de 200 pages ≈ 100 000 tokens
**Pourquoi c'est important** : les LLMs sont facturés au token (en input ET en output). Un appel à GPT-5 sur 10 000 tokens d'input et 2000 tokens d'output coûte ~0,12$ en 2026. À grande échelle, les optimisations de tokens deviennent critiques.
**Outils** : - tiktoken (Python) pour compter les tokens GPT - @anthropic-ai/tokenizer pour Claude - L'éditeur web tiktokenizer.vercel.app pour visualiser
Exemples concrets
- "Bonjour" = 1 token (mot fréquent)
- "intelligence artificielle" = 3 tokens en français, 2 en anglais
- "🎉" = 3 tokens (les emojis sont gourmands)
- Un nom propre rare comme "Aurélien" = 3-4 tokens
Approfondir
Tu veux maîtriser Token en pratique ?
Le module "Tokens, contexte et mémoire" couvre token en profondeur, avec démonstrations interactives et exercices.
Découvrir le module →Termes liés
Quantité maximale de texte (en tokens) qu'un LLM peut traiter en une seule fois.
Large Language Model — modèle de deep learning entraîné sur d'immenses corpus de texte.
Représentation mathématique d'un texte sous forme de vecteur numérique de plusieurs centaines de dimensions.