Contexte (fenêtre de)

Définition complète

La fenêtre de contexte est la limite physique de ce qu'un LLM peut "voir" en même temps : prompt système + historique de conversation + documents + question + réponse en cours. Au-delà, le modèle tronque silencieusement les informations les plus anciennes — c'est la cause #1 des comportements "il a oublié ce que je viens de dire".

État de l'art en 2026 : - GPT-5 : 256 000 tokens - Claude 4.6 Sonnet : 1 million de tokens - Gemini 2.5 Pro : 2 millions de tokens - Modèles open-source (Llama 4, Mistral) : généralement 128K à 256K

1 token ≈ 0,75 mot en français. Donc 1 million de tokens ≈ 750 000 mots ≈ 1500 pages de roman. C'est énorme — et tentant. Mais attention : avoir un grand contexte ne signifie pas qu'il est utilisé efficacement. Au-delà de 100K tokens, la plupart des modèles "perdent" de l'attention sur les informations du milieu (phénomène "lost in the middle"). Pour les cas où la précision est critique, le RAG (qui injecte uniquement les passages pertinents) reste plus fiable que le "long context".

Le contexte est aussi facturé : envoyer 200K tokens à GPT-5 coûte environ 0,40$ par appel rien qu'en input. À grande échelle, ça change l'économie.

Définition complète

Tu veux maîtriser Contexte (fenêtre de) en pratique ?

Termes liés