Alibaba lance Qwen2.5-Omni-7B : un modèle d'IA multimodale open source pour les appareils du quotidien
- Tilo
- modifié le
Partager la publication
Alibaba Cloud a récemment annoncé (fin mars 2025) le lancement de Qwen2.5-Omni-7B, une avancée notable dans le domaine de l'intelligence artificielle multimodale. Ce nouveau modèle se distingue par sa capacité à traiter et comprendre simultanément une variété de formats – texte, images, audio et vidéo – tout en étant suffisamment compact (7 milliards de paramètres) pour s'exécuter efficacement sur des appareils personnels comme les smartphones et les ordinateurs portables.
Une architecture "Thinker-Talker" innovante
La performance de Qwen2.5-Omni-7B repose en partie sur son architecture unique baptisée "Thinker-Talker". Le composant "Thinker" agit comme le cerveau analytique, intégrant et interprétant les informations provenant des différentes modalités (visuelle, auditive, textuelle). Le "Talker", lui, se spécialise dans la génération de réponses, produisant du texte ou une parole naturelle et fluide en temps réel. Cette séparation permettrait, selon Alibaba, d'optimiser la qualité des sorties pour chaque modalité.
Performances et Comparaisons
Alibaba rapporte que Qwen2.5-Omni-7B atteint des performances de pointe ("state-of-the-art") dans plusieurs benchmarks évaluant les capacités multimodales, notamment OmniBench, où il rivalise favorablement avec d'autres modèles de référence, y compris dans certaines tâches spécifiques où il pourrait surpasser des modèles comme Gemini 1.5 Pro de Google. Le modèle excelle également dans la compréhension d'images (MMMU, MMStar), de vidéos (MVBench) et surtout dans la génération de parole naturelle, approchant la qualité humaine selon le benchmark Seed-tts-eval.
Conçu pour le "Edge Computing" et le quotidien
L'optimisation pour le "edge computing" est un atout majeur. Qwen2.5-Omni-7B est conçu pour fonctionner de manière efficiente sur des appareils à ressources limitées, ouvrant la voie à des applications IA réactives et autonomes ne dépendant pas constamment d'une connexion serveur. Les cas d'usage potentiels sont variés : assistance en temps réel pour les personnes malvoyantes via des descriptions audio de leur environnement, aide culinaire par analyse vidéo des ingrédients, ou encore agents conversationnels plus interactifs.
Une démarche Open Source stratégique
Conformément à sa stratégie d'ouverture, Alibaba a rendu Qwen2.5-Omni-7B disponible en open source sous licence Apache 2.0. Les développeurs et chercheurs peuvent y accéder via des plateformes communautaires majeures comme Hugging Face, GitHub et ModelScope. Cette décision vise à encourager l'innovation collaborative et accélérer l'adoption de cette technologie multimodale.
Un maillon dans la stratégie globale d'Alibaba
Le lancement de ce modèle s'inscrit dans une stratégie d'investissement ambitieuse d'Alibaba dans l'IA et le Cloud. Le groupe a confirmé un investissement de plus de 53 milliards de dollars sur trois ans pour renforcer son infrastructure matérielle dans ces domaines. Par ailleurs, des partenariats concrets, comme celui renforcé avec BMW pour intégrer l'IA Qwen dans les futures voitures connectées en Chine, illustrent la volonté d'Alibaba de déployer ses technologies IA dans des applications tangibles.
Et pour finir...
Avec Qwen2.5-Omni-7B, Alibaba Cloud propose un modèle d'IA multimodal puissant, polyvalent et remarquablement accessible grâce à sa taille optimisée et sa nature open source. Il représente une étape significative vers une IA plus intégrée à notre environnement quotidien, capable d'interagir avec le monde de manière plus riche et naturelle, directement depuis nos appareils personnels.