Multimodal

Définition complète

Un modèle multimodal peut comprendre et générer plusieurs types de données. GPT-4o, Claude 4.6 et Gemini 2.5 sont multimodaux : tu peux leur envoyer une image, un PDF, un fichier audio, et ils l'analysent comme du texte.

Les capacités multimodales se sont démocratisées en 2024-2026 : - **Vision** : décrire une image, lire un document scanné, analyser un graphique, comprendre un diagramme - **Audio** : transcrire une réunion, identifier les locuteurs, comprendre l'intonation - **Vidéo** : Gemini 2.5 et GPT-5 peuvent analyser des vidéos courtes (analyse de tutoriels, vérification de procédures) - **Génération** : DALL-E 3, Flux, Midjourney pour les images ; Sora, Veo pour la vidéo ; ElevenLabs, Suno pour l'audio

Cas d'usage business : - Extraire automatiquement les données d'une facture scannée - Vérifier qu'une pièce d'identité correspond à un selfie - Analyser un screenshot de bug et proposer une correction - Transcrire et résumer un appel client de 30 min - Générer 20 variations d'un visuel marketing à partir d'un brief texte

Les prochaines frontières (déjà en bêta chez certains) : multimodal natif en temps réel (parler à voix haute avec le modèle qui voit ton écran), génération vidéo de qualité production en quelques secondes, et compréhension fine de la 3D et du spatial.

Définition complète

Tu veux maîtriser Multimodal en pratique ?

Termes liés