Paramètres

Définition complète

Les paramètres d'un modèle (aussi appelés poids ou weights) sont les valeurs numériques qui constituent ce que le modèle a appris. Quand on dit "GPT-3 a 175 milliards de paramètres", on parle de 175 milliards de nombres réels stockés dans le modèle.

À quoi servent ces nombres ? Ils encodent les forces de connexion entre les neurones du réseau. Pendant l'entraînement, ces valeurs sont ajustées progressivement (par descente de gradient) pour que le modèle prédise mieux le token suivant. À la fin, on a un modèle de plusieurs gigaoctets dont chaque paramètre contribue à la "connaissance" globale.

Ordres de grandeur en 2026 : - **Petits modèles** (1-3B params) : Phi-3, Gemma, GPT-4o-mini. Tournent sur ton téléphone. - **Modèles moyens** (7-13B params) : Llama 4 8B, Mistral Small. Excellents pour beaucoup de tâches, tournent sur GPU consumer. - **Grands modèles** (70-100B+) : Claude Sonnet, GPT-5-mini, Llama 4 70B. Demandent un serveur ou une API. - **Frontière** (~1T params estimé) : GPT-5, Claude 4.6 Opus, Gemini 2.5. Mobilisent des datacenters entiers.

Plus de paramètres ≠ toujours mieux. Les modèles 7B bien entraînés (avec beaucoup de données de qualité) battent souvent les modèles 70B mal entraînés. Et pour 90% des tâches business, un bon modèle 7B suffit largement — à un coût d'inférence 10× moindre.

Définition complète

Tu veux maîtriser Paramètres en pratique ?

Termes liés