Glossaire IA

30 termes essentiels de l'intelligence artificielle expliqués clairement — des tokens aux agents IA en passant par le RAG et le fine-tuning.

A

Agent IA

Système IA capable de planifier et d'exécuter des actions de façon autonome pour atteindre un objectif. Contrairement à un LLM classique qui se contente de répondre, un agent peut appeler des outils, naviguer sur le web, lire des fichiers et enchaîner plusieurs étapes sans intervention humaine.

LLMMCP ServerOrchestration

Attention

Mécanisme central des transformers qui permet au modèle de "peser" l'importance de chaque mot du contexte pour générer le token suivant. Inventé par Google en 2017, il est à l'origine de la révolution des LLMs modernes. Contrairement aux architectures précédentes, l'attention traite la phrase entière en parallèle.

TransformerTokenLLM

C

Chain of Thought

Technique de prompt engineering qui consiste à demander au modèle de raisonner étape par étape avant de donner sa réponse finale. On l'active avec des formules comme "Raisonne étape par étape" ou "Montre ton raisonnement". Améliore significativement les performances sur des tâches logiques et mathématiques.

Prompt engineeringFew-shotLLM

Contexte (fenêtre de)

Quantité maximale de texte (mesurée en tokens) qu'un LLM peut traiter en une seule fois — à la fois en entrée et en sortie. Au-delà de cette limite, le modèle ne "voit" plus les informations les plus anciennes. GPT-4o : 128 000 tokens. Claude 3.5 : 200 000 tokens. Gemini 1.5 Pro : 1 million de tokens.

TokenMémoireLLM

D

Deep Learning

Sous-catégorie du machine learning utilisant des réseaux de neurones artificiels à plusieurs couches. Chaque couche apprend des représentations de plus en plus abstraites des données. Révolutionnaire pour la reconnaissance d'images (2012), de la parole, et la compréhension du langage naturel.

Machine LearningRéseau de neuronesTransformer

E

Embedding

Représentation mathématique d'un texte sous forme de vecteur numérique. Les embeddings capturent le sens sémantique : des mots proches dans l'espace vectoriel ont des significations proches. Essentiels pour les systèmes RAG, la recherche sémantique et la comparaison de textes.

RAGVector databaseSémantique

F

Few-shot

Technique de prompting qui consiste à fournir quelques exemples (généralement 2 à 5) de l'entrée/sortie attendue directement dans le prompt. Permet d'orienter le modèle sans entraînement supplémentaire. Contraste avec zero-shot (aucun exemple) et fine-tuning (réentraînement sur de nombreux exemples).

Zero-shotPrompt engineeringFine-tuning

Fine-tuning

Processus d'adaptation d'un modèle pré-entraîné à une tâche ou un domaine spécifique en le réentraînant sur un dataset ciblé. Moins coûteux qu'un entraînement complet mais nécessite des données de qualité. Techniques populaires : LoRA, QLoRA pour les modèles open-source.

LoRARAGDataset

Function calling

Capacité d'un LLM à appeler des fonctions ou des API externes de façon structurée. Le modèle génère un JSON décrivant quel outil appeler et avec quels paramètres. Base technique des agents IA et des intégrations MCP. Aussi appelé "tool use".

Agent IAMCP ServerAPI

H

Hallucination

Phénomène où un LLM génère des informations fausses présentées avec confiance. Structurellement inévitable : le modèle prédit le token le plus probable, pas le token le plus vrai. Particulièrement fréquent sur des faits précis, des dates, des citations ou des informations récentes post-entraînement.

LLMTokenVérification factuelle

I

Inférence

Phase d'utilisation d'un modèle entraîné pour générer des réponses à de nouvelles entrées. Opposé à l'entraînement. C'est l'inférence qui se produit quand tu envoies un prompt — le modèle applique ce qu'il a appris sans modifier ses paramètres.

EntraînementLLMParamètres

L

LoRA

Low-Rank Adaptation — technique de fine-tuning efficace qui ajoute de petites matrices entraînables aux couches du modèle original plutôt que de modifier tous ses paramètres. Réduit considérablement les besoins en mémoire GPU et les coûts de fine-tuning. QLoRA est une version encore plus optimisée.

Fine-tuningGPUParamètres

LLM

Large Language Model — modèle de deep learning entraîné sur d'immenses corpus de texte pour comprendre et générer du langage naturel. Technologie de base derrière ChatGPT (GPT-4o), Claude, Gemini, Mistral et Llama. Fonctionne par prédiction du token suivant, répétée jusqu'à la fin de la réponse.

TokenTransformerAttention

M

Machine Learning

Approche de l'IA où le système apprend à partir d'exemples plutôt que de règles explicites programmées. Le modèle identifie des patterns dans les données d'entraînement et généralise à de nouvelles situations. Englobant le deep learning comme sous-catégorie plus spécialisée.

Deep LearningDatasetEntraînement

MCP Server

Model Context Protocol — standard ouvert créé par Anthropic permettant aux LLMs de se connecter à des sources de données et outils externes de façon standardisée. Un MCP server expose des "tools" que le modèle peut appeler : lire un fichier, envoyer un email, requêter une base de données.

Function callingAgent IAAnthropic

Mémoire (d'un LLM)

Les LLMs n'ont pas de mémoire native entre les sessions — chaque conversation repart de zéro. La "mémoire" est simulée en injectant les échanges précédents dans le contexte. Plusieurs types : mémoire de travail (dans le contexte), mémoire épisodique (résumés stockés), mémoire sémantique (base vectorielle).

ContexteRAGEmbedding

Multimodal

Modèle capable de traiter plusieurs types de données — texte, images, audio, vidéo. GPT-4o, Claude 3.5 et Gemini 1.5 sont multimodaux : ils peuvent analyser une image, décrire un graphique ou transcrire de l'audio. La prochaine frontière est le multimodal natif incluant la vidéo et le son en temps réel.

LLMVisionAudio

O

Orchestration

Coordination de plusieurs agents IA ou appels de modèles pour accomplir une tâche complexe. Un orchestrateur décompose l'objectif en sous-tâches, assigne chaque tâche à un agent spécialisé et agrège les résultats. Outils populaires : LangGraph, CrewAI, AutoGen.

Agent IAMulti-agentsLangChain

P

Paramètres

Valeurs numériques ajustées pendant l'entraînement d'un modèle — l'équivalent des "connaissances" stockées. Un modèle de 7 milliards de paramètres (7B) est considéré petit, 70B grand, 1 trillion (GPT-4 estimé) très grand. Plus de paramètres = plus de capacité, mais aussi plus de ressources nécessaires.

Fine-tuningEntraînementLLM

Prompt

Instruction ou texte envoyé à un LLM pour obtenir une réponse. La qualité du prompt détermine directement la qualité de la sortie — d'où l'importance du prompt engineering. Un bon prompt spécifie le rôle, le contexte, la tâche, le format attendu et les contraintes.

Prompt engineeringSystem promptToken

Prompt engineering

Art et science de concevoir des instructions optimales pour les LLMs. Inclut des techniques comme le zero-shot, few-shot, chain of thought, les personas, les contraintes négatives et l'itération systématique. Compétence critique pour obtenir des résultats fiables et reproductibles.

Zero-shotFew-shotChain of thought

R

RAG

Retrieval Augmented Generation — architecture combinant un LLM avec une base de données externe. Lors d'une requête, les documents les plus pertinents sont d'abord récupérés (retrieval), puis injectés dans le contexte du LLM qui génère une réponse informée (generation). Résout le problème des hallucinations et des données périmées.

EmbeddingVector databaseContexte

Réseau de neurones

Architecture computationnelle inspirée du cerveau, composée de neurones artificiels organisés en couches. Chaque neurone reçoit des entrées, applique une transformation et transmet le résultat. Les poids des connexions sont ajustés pendant l'entraînement. Base de tout le deep learning moderne.

Deep LearningParamètresTransformer

S

System prompt

Instructions de configuration envoyées au LLM avant la conversation de l'utilisateur. Définit le rôle du modèle, son ton, ses capacités et ses contraintes. Invisible pour l'utilisateur final dans la plupart des applications. Point central de personnalisation pour les développeurs qui intègrent des LLMs.

PromptRôlePersona

T

Température

Paramètre contrôlant le caractère aléatoire des réponses d'un LLM (entre 0 et 2). À 0 : réponses déterministes et répétitives, toujours le token le plus probable. À 1+ : réponses créatives mais potentiellement incohérentes. La plupart des applications utilisent 0.7 comme compromis.

TokenLLMTop-p

Token

Unité de base du traitement textuel dans les LLMs — un mot, une partie de mot, un espace ou un signe de ponctuation. "intelligence artificielle" = 3 tokens. "Bonjour" = 1 token. Les modèles facturent à la consommation de tokens. Règle approximative : 1 000 tokens ≈ 750 mots en français.

ContexteLLMTokenisation

Top-p (nucleus sampling)

Alternative à la température pour contrôler la diversité des réponses. Au lieu de sélectionner parmi tous les tokens possibles, le modèle ne considère que les tokens dont la probabilité cumulée atteint p. Top-p = 0.9 signifie : n'utiliser que les tokens formant 90% de la masse probabiliste.

TempératureTokenLLM

Transformer

Architecture de réseau de neurones publiée par Google en 2017 dans le papier "Attention Is All You Need". Révolutionne le traitement du langage grâce au mécanisme d'attention. Base de tous les LLMs modernes : GPT, Claude, Gemini, Mistral. Remplace les architectures récurrentes (RNN, LSTM) en traitant le texte en parallèle.

AttentionLLMDeep Learning

V

Vector database

Base de données optimisée pour stocker et chercher des embeddings vectoriels par similarité sémantique. Essentielle dans les architectures RAG. Exemples : Pinecone, Weaviate, Qdrant, pgvector (extension PostgreSQL). Permet de retrouver les documents les plus "proches" d'une requête en sens, pas en mots-clés exacts.

EmbeddingRAGSémantique

Z

Zero-shot

Capacité d'un LLM à réaliser une tâche sans aucun exemple dans le prompt. On décrit simplement la tâche et le modèle l'exécute. Performant pour les tâches simples ou bien définies. Pour des tâches complexes ou spécifiques, le few-shot (avec exemples) donne de meilleurs résultats.

Few-shotPrompt engineeringLLM

Passe de la théorie à la pratique

Le module 01 explique tous ces concepts avec des démonstrations interactives.

Commencer gratuitement