RAG

Définition complète

Le RAG est devenu LE pattern dominant pour faire répondre un LLM sur des données spécifiques (documentation interne, contrats, base de connaissances). Sans RAG, un LLM ne connaît que ce qu'il a vu pendant son entraînement, qui s'arrête à une date précise et n'inclut évidemment pas tes documents privés.

Fonctionnement du RAG en 2 phases :

**Phase d'indexation (offline)** : 1. Tu prends tes documents (PDF, pages web, base de données…) 2. Tu les découpes en "chunks" de 200-500 mots 3. Tu génères un embedding (vecteur) pour chaque chunk 4. Tu stockes ces vecteurs dans une base vectorielle (Pinecone, Qdrant, pgvector, Weaviate)

**Phase de requête (online)** : 1. L'utilisateur pose une question 2. Tu génères l'embedding de la question 3. Tu cherches dans la base les chunks dont les vecteurs sont les plus proches sémantiquement 4. Tu injectes ces chunks dans le prompt système du LLM 5. Le LLM répond en s'appuyant sur les passages fournis

Avantages du RAG sur le fine-tuning : - Pas besoin de réentraîner le modèle quand tes documents changent - Tu peux citer les sources (utiliser tel passage de tel document) - Beaucoup moins cher (juste embeddings + appels LLM, pas d'entraînement) - Compatible avec n'importe quel modèle

Limites : la qualité dépend du chunking, de la qualité des embeddings, et du re-ranking. Un RAG mal réglé renvoie des chunks non pertinents et le LLM hallucine. Un bon RAG demande de l'évaluation continue (RAGAS, custom evals).

C'est probablement la techno la plus déployée en entreprise en 2026 : chatbot support qui répond sur la doc produit, assistant juridique sur les contrats internes, etc.

Définition complète

Tu veux maîtriser RAG en pratique ?

Termes liés