RAG
Retrieval Augmented Generation — combine un LLM avec une base de données externe.
Définition complète
Le RAG est devenu LE pattern dominant pour faire répondre un LLM sur des données spécifiques (documentation interne, contrats, base de connaissances). Sans RAG, un LLM ne connaît que ce qu'il a vu pendant son entraînement, qui s'arrête à une date précise et n'inclut évidemment pas tes documents privés.
Fonctionnement du RAG en 2 phases :
**Phase d'indexation (offline)** : 1. Tu prends tes documents (PDF, pages web, base de données…) 2. Tu les découpes en "chunks" de 200-500 mots 3. Tu génères un embedding (vecteur) pour chaque chunk 4. Tu stockes ces vecteurs dans une base vectorielle (Pinecone, Qdrant, pgvector, Weaviate)
**Phase de requête (online)** : 1. L'utilisateur pose une question 2. Tu génères l'embedding de la question 3. Tu cherches dans la base les chunks dont les vecteurs sont les plus proches sémantiquement 4. Tu injectes ces chunks dans le prompt système du LLM 5. Le LLM répond en s'appuyant sur les passages fournis
Avantages du RAG sur le fine-tuning : - Pas besoin de réentraîner le modèle quand tes documents changent - Tu peux citer les sources (utiliser tel passage de tel document) - Beaucoup moins cher (juste embeddings + appels LLM, pas d'entraînement) - Compatible avec n'importe quel modèle
Limites : la qualité dépend du chunking, de la qualité des embeddings, et du re-ranking. Un RAG mal réglé renvoie des chunks non pertinents et le LLM hallucine. Un bon RAG demande de l'évaluation continue (RAGAS, custom evals).
C'est probablement la techno la plus déployée en entreprise en 2026 : chatbot support qui répond sur la doc produit, assistant juridique sur les contrats internes, etc.
Approfondir
Tu veux maîtriser RAG en pratique ?
Le module "RAG — l'IA qui connaît tes propres documents" couvre rag en profondeur, avec démonstrations interactives et exercices.
Découvrir le module →Termes liés
Représentation mathématique d'un texte sous forme de vecteur numérique de plusieurs centaines de dimensions.
Base de données optimisée pour stocker et chercher des embeddings par similarité sémantique.
Quantité maximale de texte (en tokens) qu'un LLM peut traiter en une seule fois.
Adaptation d'un modèle pré-entraîné à une tâche ou un domaine spécifique en le réentraînant.