Hallucination
Phénomène où un LLM génère des informations fausses présentées avec confiance.
Définition complète
Une hallucination IA, c'est quand un LLM produit une affirmation qui paraît parfaitement plausible mais qui est fausse : un livre qui n'existe pas, une citation inventée, une fonction Python qui n'a jamais été créée, une statistique sortie de nulle part.
La cause est structurelle, pas un bug : les LLMs ne stockent pas une base de faits. Ils ont appris des patterns statistiques sur des milliards de phrases humaines. Quand tu leur demandes "Qui a écrit le livre Comprendre l'IA en 30 jours ?", ils ne cherchent pas dans une base — ils prédisent le nom le plus probable étant donné le pattern. S'il n'y a pas de signal clair, ils inventent un auteur qui sonne crédible.
Les hallucinations sont particulièrement fréquentes sur : - Faits précis : noms, dates, citations, statistiques - Documents internes ou récents que le modèle n'a jamais vus - Questions très spécifiques (références bibliographiques, jurisprudence, etc.) - Code utilisant des bibliothèques moins courantes
Comment les limiter : 1. **RAG** : injecter les documents pertinents dans le contexte → le modèle s'appuie sur du factuel vérifié 2. **Function calling** : laisser le modèle interroger une vraie source (base de données, API) 3. **Vérification** : pour les réponses critiques, ajouter une étape "Cite tes sources avec lien" puis valider manuellement 4. **Température 0** : réduit (sans éliminer) les hallucinations sur les tâches factuelles 5. **Prompt explicite** : "Si tu n'es pas sûr, dis-le. Ne devine jamais une référence."
Règle d'or : ne JAMAIS faire confiance à un LLM sur un fait précis sans vérification, surtout pour le juridique, le médical, le financier.
Approfondir
Tu veux maîtriser Hallucination en pratique ?
Le module "Biais, hallucinations et IA responsable" couvre hallucination en profondeur, avec démonstrations interactives et exercices.
Découvrir le module →Termes liés
Large Language Model — modèle de deep learning entraîné sur d'immenses corpus de texte.
Retrieval Augmented Generation — combine un LLM avec une base de données externe.
Unité de base du traitement textuel dans les LLMs — un mot, une partie de mot, ou un signe.
Paramètre contrôlant le caractère aléatoire des réponses d'un LLM.