Gemini Robotics 1.5 élève l'intelligence artificielle robotique à un très haut niveau

Trois robots photoréalistes reliés par un ruban lumineux symbolisant le transfert de compétences de Gemini Robotics 1.5, avec le titre “Appris ici. Maîtrisé partout.” en français.
Transfert de compétences entre robots, puissance 1.5
Google DeepMind lance Gemini Robotics 1.5, une avancée majeure qui permet aux robots de raisonner, planifier et utiliser des outils numériques pour accomplir des tâches complexes du monde physique.

Partager la publication

Sommaire
    Add a header to begin generating the table of contents

    L'intelligence artificielle franchit un nouveau cap décisif avec Gemini Robotics 1.5, la dernière innovation de Google DeepMind qui permet aux robots d'utiliser la recherche web et de transférer leurs compétences entre eux. Cette avancée technologique majeure marque un tournant vers des agents physiques véritablement autonomes, capables de naviguer et d'interagir dans notre environnement quotidien avec une intelligence et une dextérité remarquables.

    Une architecture dual pour des capacités étendues

    Google DeepMind a conçu une approche innovante en développant deux modèles complémentaires qui travaillent de concert. Cette stratégie permet de surmonter les défis traditionnels de la robotique moderne en séparant les fonctions de raisonnement de haut niveau des actions physiques concrètes.

     

    • Gemini Robotics 1.5 constitue le modèle vision-langage-action (VLA) le plus performant de la famille. Il transforme les informations visuelles et les instructions en commandes motrices précises pour que le robot exécute une tâche donnée. Sa particularité réside dans sa capacité à "penser avant d'agir", montrant son processus de réflexion et aidant les robots à évaluer et accomplir des tâches complexes de manière transparente.

     

    • Gemini Robotics-ER 1.5 fonctionne comme le "cerveau de haut niveau" du système robotique. Ce modèle vision-langage (VLM) apporte les capacités agentiques de Gemini à la robotique, permettant une interprétation avancée des données visuelles complexes et une planification d'actions à partir de commandes en langage naturel. Il excelle dans la planification et la prise de décisions logiques au sein d'environnements physiques, tout en atteignant des performances de pointe sur les benchmarks de compréhension spatiale.

     

    L'interaction entre ces deux modèles crée un écosystème robotique sophistiqué. Gemini Robotics-ER 1.5 orchestre les activités du robot et fournit des instructions en langage naturel pour chaque étape, tandis que Gemini Robotics 1.5 utilise sa compréhension visuelle et linguistique pour exécuter directement les actions spécifiques.

    Une évolution importante du raisonnement robotique

    L'une des innovations les plus remarquables de Gemini Robotics 1.5 réside dans sa capacité de réflexion préalable à l'action. Contrairement aux modèles traditionnels qui traduisent directement les instructions en mouvements robotiques, cette nouvelle génération peut générer une séquence interne de raisonnement et d'analyse en langage naturel.

     

    Prenons l'exemple concret d'une tâche comme "Triez mon linge par couleur". Le robot réfléchit à plusieurs niveaux : il comprend d'abord que trier par couleur signifie placer les vêtements blancs dans le bac blanc et les autres couleurs dans le bac noir. Ensuite, il planifie les étapes spécifiques, comme saisir le pull rouge et le déposer dans le bac noir, tout en analysant les mouvements détaillés nécessaires pour rapprocher un vêtement afin de le saisir plus facilement.

     

    Cette approche multi-niveaux permet au modèle de décomposer des tâches longues en segments plus courts et réalisables. Elle améliore également la capacité de généralisation pour résoudre de nouvelles tâches et renforce la robustesse face aux changements environnementaux.

    L'intégration des outils numériques

    Une caractéristique particulièrement innovante de Gemini Robotics-ER 1.5 est sa capacité native à utiliser des outils numériques. Le modèle peut effectuer des recherches Google pour obtenir des informations pertinentes ou utiliser des fonctions tierces définies par l'utilisateur. Cette fonctionnalité ouvre des possibilités inédites pour la résolution de problèmes complexes.

     

    Imaginons un scénario où un robot reçoit l'instruction : "En fonction de ma localisation, pouvez-vous trier ces objets dans les bonnes poubelles de compost, recyclage et déchets ?" Le robot devra rechercher les directives locales de recyclage sur internet, examiner les objets devant lui, déterminer comment les trier selon ces règles, puis exécuter toutes les étapes nécessaires pour les ranger correctement.

     

    Cette capacité d'interaction avec l'environnement numérique transforme fondamentalement la façon dont les robots peuvent aborder les défis du monde réel, en leur permettant d'accéder à des connaissances actualisées et contextuelles.

    L'apprentissage inter-corporel : une percée technologique

    L'une des limitations historiques de la robotique était la difficulté de transférer les mouvements appris d'un robot à un autre, en raison des différences de forme, de taille et de capacités sensorielles. Gemini Robotics 1.5 surmonte cet obstacle grâce à une capacité remarquable d'apprentissage inter-corporel. Le modèle peut transférer des mouvements appris d'un robot vers un autre sans nécessiter de spécialisation pour chaque nouvelle incarnation physique. Cette percée accélère considérablement l'apprentissage de nouveaux comportements et rend les robots plus intelligents et utiles.

     

    Les tests démontrent que des tâches présentées uniquement au robot ALOHA 2 pendant l'entraînement fonctionnent également sur le robot humanoïde Apollo d'Apptronik et sur le robot bi-bras Franka, et vice versa. Cette polyvalence représente un avantage économique et pratique considérable pour le déploiement industriel et domestique.

    Performance et évaluations techniques

    Gemini Robotics-ER 1.5 se distingue comme le modèle vision-langage le plus précis pour la localisation d'objets, capable de fournir l'emplacement de chaque objet dans une scène de cuisine complexe. Cette information peut ensuite être combinée avec les capteurs 3D du robot pour déterminer les actions appropriées.

     

    Les évaluations sur 15 benchmarks académiques, incluant Embodied Reasoning Question Answering (ERQA) et Point-Bench, confirment les performances de pointe du modèle. Ces tests mesurent les capacités de pointage, de réponse aux questions sur images et vidéos, ainsi que la compréhension spatiale avancée.

     

    Les résultats montrent une amélioration significative par rapport aux générations précédentes, particulièrement dans la compréhension sémantique complexe et la planification multi-étapes. Cette progression technique se traduit par une utilité pratique accrue dans des environnements réels variés.

    Sécurité et développement responsable

    Le développement de Gemini Robotics 1.5 s'accompagne d'une approche proactive en matière de sécurité et d'alignement. Google DeepMind a mis en place des mesures strictes pour garantir un déploiement responsable dans des environnements centrés sur l'humain.

     

    Le Conseil de responsabilité et sécurité (RSC) et l'équipe de développement responsable et innovation (ReDI) collaborent étroitement avec l'équipe robotique pour s'assurer que ces modèles respectent les principes éthiques de l'IA de Google.

     

    Gemini Robotics 1.5 implémente une approche holistique de la sécurité à travers un raisonnement sémantique de haut niveau. Le système réfléchit aux aspects sécuritaires avant d'agir, garantit un dialogue respectueux avec les humains via l'alignement avec les politiques de sécurité Gemini existantes, et déclenche des sous-systèmes de sécurité de bas niveau pour l'évitement de collisions lorsque nécessaire.

     

    Pour guider ce développement sécurisé, Google DeepMind a également publié une version améliorée du benchmark ASIMOV, une collection complète de jeux de données pour évaluer et améliorer la sécurité sémantique. Cette mise à jour inclut une meilleure couverture des cas limites, des annotations améliorées, de nouveaux types de questions de sécurité et de nouvelles modalités vidéo.

    Disponibilité

    Gemini Robotics-ER 1.5 est désormais disponible pour les développeurs via l'API Gemini dans Google AI Studio, tandis que Gemini Robotics 1.5 est actuellement accessible aux partenaires sélectionnés. Cette stratégie de déploiement progressif permet d'affiner le modèle avant une diffusion plus large.

     

    Les applications potentielles sont vastes : de l'assistance domestique aux environnements industriels, en passant par les soins de santé et l'éducation. La capacité des robots à comprendre contextuellement leur environnement et à exécuter des tâches complexes multi-étapes ouvre la voie à une intégration plus naturelle dans notre quotidien.

    Vers une intelligence artificielle générale physique

    Gemini Robotics 1.5 représente une étape fondamentale vers la résolution de l'intelligence artificielle générale (AGI) dans le monde physique. En introduisant des capacités agentiques, Google DeepMind dépasse les modèles qui se contentent de réagir aux commandes pour créer des systèmes capables de véritablement raisonner, planifier, utiliser activement des outils et généraliser.

     

    Cette avancée constitue un pas fondamental vers la construction de robots capables de naviguer dans les complexités du monde physique avec intelligence et dextérité. L'objectif ultime est de créer des assistants robotiques plus utiles et mieux intégrés dans nos vies quotidiennes.

     

    L'impact potentiel de cette technologie s'étend bien au-delà de la robotique traditionnelle. Elle pourrait révolutionner des secteurs entiers, de la logistique à la santé, en passant par l'éducation et les services domestiques. La capacité de ces robots à apprendre continuellement et à s'adapter à de nouveaux environnements promet une transformation significative de notre interaction avec la technologie.

    Résumé de l'article

    • Innovation dual : Gemini Robotics 1.5 combine deux modèles complémentaires (VLA et VLM) pour créer des robots capables de raisonner avant d'agir et de planifier des tâches complexes multi-étapes
    • Intégration numérique : Les robots peuvent désormais utiliser Google Search et d'autres outils numériques pour obtenir des informations contextuelles et résoudre des problèmes du monde réel
    • Apprentissage polyvalent : La capacité d'apprentissage inter-corporel permet aux robots de transférer leurs compétences entre différentes incarnations physiques sans re-entraînement spécialisé
    • Performances de pointe : Le modèle atteint des résultats state-of-the-art sur 15 benchmarks académiques, particulièrement en compréhension spatiale et localisation d'objets
    • Développement responsable : Google DeepMind intègre des mesures de sécurité holistiques et collabore avec ses conseils éthiques pour garantir un déploiement responsable de cette technologie révolutionnaire
     
    D'autres articles d'IA qui pourraient vous intéresser
    Retour en haut