Top-p (nucleus sampling)

Définition complète

Top-p (nucleus sampling) est une autre façon de contrôler à quel point un LLM est "créatif" ou prévisible. À chaque prédiction, au lieu de considérer tous les tokens possibles, le modèle ne considère que les tokens dont la probabilité cumulée atteint le seuil p.

Exemple concret : - Top-p = 0.1 : on ne garde que les tokens représentant 10% de la masse probabiliste totale → réponses très conservatrices - Top-p = 0.9 : on garde les tokens représentant 90% → bon compromis créativité/cohérence (par défaut chez beaucoup de modèles) - Top-p = 1.0 : on garde tous les tokens possibles → équivalent à pas de filtrage

Différence avec la température : la température modifie la distribution de probabilité (l'aplatit ou la rend plus piquée), tandis que top-p coupe la queue de la distribution. Les deux ont des effets similaires mais pas identiques.

En pratique, on utilise généralement **soit** la température **soit** le top-p, mais pas les deux ensemble (sinon les effets se cumulent de façon imprévisible). La plupart des développeurs pros utilisent juste la température et laissent top-p au défaut.

Quand utiliser top-p plutôt que température : - Quand tu veux préserver la cohérence locale tout en gardant de la variabilité globale - Quand température 0 donne des réponses trop répétitives mais que température élevée perd en cohérence

Dans 95% des cas business, juste régler la température suffit largement.

Définition complète

Tu veux maîtriser Top-p (nucleus sampling) en pratique ?

Termes liés