On parle de multimodalité lorsqu'un modèle d'IA sait traiter plusieurs types de contenus — texte, image, audio, voire vidéo — au sein d'un même système.
Le principe
Les IA récentes ne traitent plus seulement le texte : elles analysent images, documents, audio et vidéo. Cette multimodalité élargit considérablement les usages — de l'analyse documentaire à l'accessibilité.
On parle de multimodalité lorsqu'un modèle d'IA sait traiter plusieurs types de contenus — texte, image, audio, voire vidéo — au sein d'un même système.
Le principe