Aller au contenu principal
EGlossaire IA

Embedding

Représentation mathématique d'un texte sous forme de vecteur numérique de plusieurs centaines de dimensions.

Définition complète

Un embedding transforme du texte en une liste de nombres (typiquement 1024 ou 1536 dimensions chez OpenAI). La magie : des textes qui veulent dire la même chose ont des embeddings proches dans l'espace vectoriel, même s'ils n'utilisent aucun mot en commun.

"Comment configurer un MCP server" et "Installation des serveurs Model Context Protocol" auront des vecteurs très proches — c'est la base de la recherche sémantique. À l'inverse, "Java" (le langage) et "Java" (l'île) auront des vecteurs très différents si le contexte le permet.

Usages principaux : - RAG : on transforme tous les documents en embeddings, on stocke dans une base vectorielle (Pinecone, Qdrant, pgvector). Quand l'utilisateur pose une question, on transforme aussi la question en embedding et on cherche les vecteurs les plus proches. - Recherche sémantique sur un site web ou une base documentaire - Clustering automatique de tickets support, retours clients, articles - Détection de doublons (deux textes formulés différemment qui parlent de la même chose)

Fournisseurs principaux : OpenAI (text-embedding-3-large, le plus utilisé), Voyage AI, Cohere, Mistral, et des modèles open-source comme BGE, GTE qui tournent en local.

Exemples concrets

  • Texte : "Comment réinitialiser mon mot de passe" → vecteur de 1536 dimensions [-0.012, 0.034, ...]
  • Distance entre "chat" et "chien" : faible (même catégorie animale)
  • Distance entre "Paris" et "capitale française" : très faible (relation sémantique forte)

Approfondir

Tu veux maîtriser Embedding en pratique ?

Le module "RAG — l'IA qui connaît tes propres documents" couvre embedding en profondeur, avec démonstrations interactives et exercices.

Découvrir le module →

Termes liés