Multimodal
Modèle capable de traiter plusieurs types de données — texte, images, audio, vidéo.
Définition complète
Un modèle multimodal peut comprendre et générer plusieurs types de données. GPT-4o, Claude 4.6 et Gemini 2.5 sont multimodaux : tu peux leur envoyer une image, un PDF, un fichier audio, et ils l'analysent comme du texte.
Les capacités multimodales se sont démocratisées en 2024-2026 : - **Vision** : décrire une image, lire un document scanné, analyser un graphique, comprendre un diagramme - **Audio** : transcrire une réunion, identifier les locuteurs, comprendre l'intonation - **Vidéo** : Gemini 2.5 et GPT-5 peuvent analyser des vidéos courtes (analyse de tutoriels, vérification de procédures) - **Génération** : DALL-E 3, Flux, Midjourney pour les images ; Sora, Veo pour la vidéo ; ElevenLabs, Suno pour l'audio
Cas d'usage business : - Extraire automatiquement les données d'une facture scannée - Vérifier qu'une pièce d'identité correspond à un selfie - Analyser un screenshot de bug et proposer une correction - Transcrire et résumer un appel client de 30 min - Générer 20 variations d'un visuel marketing à partir d'un brief texte
Les prochaines frontières (déjà en bêta chez certains) : multimodal natif en temps réel (parler à voix haute avec le modèle qui voit ton écran), génération vidéo de qualité production en quelques secondes, et compréhension fine de la 3D et du spatial.
Approfondir
Tu veux maîtriser Multimodal en pratique ?
Le module "Panorama des outils IA en 2025" couvre multimodal en profondeur, avec démonstrations interactives et exercices.
Découvrir le module →