Inférence

Définition complète

Dans la vie d'un modèle d'IA, il y a deux grandes phases : l'**entraînement** (où le modèle apprend en ajustant ses paramètres sur des milliards d'exemples) et l'**inférence** (où le modèle est utilisé pour produire des réponses sans modifier ses paramètres).

Quand tu envoies un prompt à ChatGPT, c'est de l'inférence. Le modèle prend ton input, fait passer cette information à travers ses couches de neurones (avec des paramètres figés), et produit une sortie.

L'inférence a un coût : pour un grand modèle comme GPT-5 ou Claude 4.6 Opus, chaque appel mobilise des dizaines de GPU haut de gamme pendant quelques secondes. C'est pour ça que les API se facturent au token : 0,50 à 15 € par million de tokens en input et output selon le modèle.

Optimisations classiques : - **Caching** des prompts répétés (Anthropic et OpenAI proposent du prompt caching natif) - **Quantization** : exécuter les modèles en 8 bits ou 4 bits au lieu de 16/32 (moins précis mais 4× plus rapide) - **Streaming** : commencer à renvoyer les tokens dès qu'ils sont générés (perception de latence divisée par 5) - **Modèles plus petits** pour les tâches simples (Haiku, GPT-mini) au lieu des modèles full

Définition complète

Tu veux maîtriser Inférence en pratique ?

Termes liés