Mémoire (d'un LLM)

Définition complète

Contrairement à ce que ChatGPT laisse penser, un LLM n'a aucune mémoire native. Quand tu reviens demain, il ne se "souvient" de rien. Ce qui paraît être de la mémoire dans une conversation longue, c'est juste l'historique des messages qui est ré-envoyé à chaque appel — d'où le côté étrange : si tu dépasses la fenêtre de contexte, le modèle "oublie" silencieusement le début.

Pour simuler une vraie mémoire persistante, on utilise plusieurs techniques :

1. **Mémoire de travail (in-context)** : on remet l'historique de conversation à chaque appel. Marche jusqu'à la limite du contexte.

2. **Mémoire épisodique** : à la fin de chaque conversation, un résumé est généré et stocké dans une base. À la session suivante, on injecte les résumés pertinents dans le prompt système. ChatGPT Memory utilise ce pattern.

3. **Mémoire sémantique (RAG)** : tous les messages passés sont transformés en embeddings et stockés dans une base vectorielle. À chaque nouvelle question, on récupère les passages les plus pertinents et on les injecte dans le contexte.

4. **Mémoire procédurale** : pour les agents, on stocke les patterns d'actions réussies ("quand l'utilisateur dit X, l'action correcte est Y").

Les meilleurs systèmes combinent les 4. C'est ce qui permet à des assistants comme Claude Projects ou ChatGPT Memory de "se souvenir" de toi sur des semaines, sans dépasser la fenêtre de contexte à chaque appel.

Définition complète

Tu veux maîtriser Mémoire (d'un LLM) en pratique ?

Termes liés