Aller au contenu principal
TGlossaire IA

Token

Unité de base du traitement textuel dans les LLMs — un mot, une partie de mot, ou un signe.

Définition complète

Un token est l'unité atomique de tout LLM. Avant de traiter du texte, le modèle le découpe en tokens, puis prédit le prochain token, le suivant, et ainsi de suite jusqu'à la fin de la réponse.

Un token, ce n'est PAS exactement un mot. C'est plutôt un fragment fréquent appris par l'algorithme de tokenisation (BPE — Byte Pair Encoding pour la plupart des modèles) : - Les mots courts fréquents = 1 token ("le", "the", "is", "chat") - Les mots longs ou rares = plusieurs tokens ("intelligence" = 2 tokens, "anticonstitutionnellement" = 5-6 tokens) - Les espaces et ponctuation comptent - Les langues moins représentées dans l'entraînement utilisent plus de tokens (le japonais, l'arabe peuvent prendre 2-3× plus de tokens que l'anglais pour le même contenu)

Règles pratiques pour le français : - 1 000 tokens ≈ 750 mots - 1 page A4 ≈ 500 tokens - Un email moyen ≈ 200 tokens - Un livre de 200 pages ≈ 100 000 tokens

**Pourquoi c'est important** : les LLMs sont facturés au token (en input ET en output). Un appel à GPT-5 sur 10 000 tokens d'input et 2000 tokens d'output coûte ~0,12$ en 2026. À grande échelle, les optimisations de tokens deviennent critiques.

**Outils** : - tiktoken (Python) pour compter les tokens GPT - @anthropic-ai/tokenizer pour Claude - L'éditeur web tiktokenizer.vercel.app pour visualiser

Exemples concrets

  • "Bonjour" = 1 token (mot fréquent)
  • "intelligence artificielle" = 3 tokens en français, 2 en anglais
  • "🎉" = 3 tokens (les emojis sont gourmands)
  • Un nom propre rare comme "Aurélien" = 3-4 tokens

Approfondir

Tu veux maîtriser Token en pratique ?

Le module "Tokens, contexte et mémoire" couvre token en profondeur, avec démonstrations interactives et exercices.

Découvrir le module →

Termes liés