Embedding

Définition complète

Un embedding transforme du texte en une liste de nombres (typiquement 1024 ou 1536 dimensions chez OpenAI). La magie : des textes qui veulent dire la même chose ont des embeddings proches dans l'espace vectoriel, même s'ils n'utilisent aucun mot en commun.

"Comment configurer un MCP server" et "Installation des serveurs Model Context Protocol" auront des vecteurs très proches — c'est la base de la recherche sémantique. À l'inverse, "Java" (le langage) et "Java" (l'île) auront des vecteurs très différents si le contexte le permet.

Usages principaux : - RAG : on transforme tous les documents en embeddings, on stocke dans une base vectorielle (Pinecone, Qdrant, pgvector). Quand l'utilisateur pose une question, on transforme aussi la question en embedding et on cherche les vecteurs les plus proches. - Recherche sémantique sur un site web ou une base documentaire - Clustering automatique de tickets support, retours clients, articles - Détection de doublons (deux textes formulés différemment qui parlent de la même chose)

Fournisseurs principaux : OpenAI (text-embedding-3-large, le plus utilisé), Voyage AI, Cohere, Mistral, et des modèles open-source comme BGE, GTE qui tournent en local.

Définition complète

Exemples concrets

Tu veux maîtriser Embedding en pratique ?

Termes liés