Google DeepMind a dévoilé une paire de intelligence artificielle (IA) qui permettront aux robots d’effectuer des tâches générales complexes et de raisonner d’une manière qui était auparavant impossible.
Plus tôt cette année, la société a dévoilé la première itération de Gemini Robotics, un modèle d’IA basé sur son modèle de langage large Gemini (LLM) – mais spécialisé pour la robotique. Cela a permis aux machines de raisonner et d’effectuer des tâches simples dans des espaces physiques.
L’exemple de référence cité par Google est le test de la banane. Le modèle d’IA original était capable de recevoir une instruction simple comme « placez cette banane dans le panier » et de guider un bras robotique pour exécuter cette commande.
Propulsé par les deux nouveaux modèles, un robot peut désormais prélever une sélection de fruits et les trier dans des contenants individuels en fonction de leur couleur. Dans une démonstration, une paire de bras robotiques (le robot Aloha 2 de l’entreprise) trie avec précision une banane, une pomme et un citron vert sur trois assiettes de la couleur appropriée. De plus, le robot explique en langage naturel ce qu’il fait et pourquoi pendant qu’il exécute la tâche.
Regarder dessus
« Nous lui permettons de penser », a déclaré Jie Tanchercheur scientifique principal chez DeepMind, dans la vidéo. « Il peut percevoir l’environnement, réfléchir étape par étape, puis terminer cette tâche en plusieurs étapes. Bien que cet exemple semble très simple, l’idée sous-jacente est vraiment puissante. Le même modèle va alimenter des robots humanoïdes plus sophistiqués pour effectuer des tâches quotidiennes plus compliquées. «
La robotique de demain basée sur l’IA
Même si la démonstration peut paraître simple à première vue, elle démontre un certain nombre de capacités sophistiquées. Le robot peut localiser spatialement les fruits et les assiettes, identifier les fruits et la couleur de tous les objets, faire correspondre les fruits aux assiettes en fonction de caractéristiques communes et fournir un résultat en langage naturel décrivant son raisonnement.
Tout cela est possible grâce à la manière dont les dernières itérations des modèles d’IA interagissent. Ils travaillent ensemble de la même manière qu’un superviseur et un travailleur.
Google Robotics-ER 1.5 (le « cerveau ») est un modèle vision-langage (VLM) qui rassemble des informations sur un espace et les objets qui s’y trouvent, traite les commandes en langage naturel et peut utiliser un raisonnement et des outils avancés pour envoyer des instructions à Google Robotics 1.5 (les « mains et yeux »), un modèle vision-langage-action (VLA). Google Robotics 1.5 adapte ces instructions à sa compréhension visuelle d’un espace et élabore un plan avant de les exécuter, en fournissant des commentaires sur ses processus et son raisonnement tout au long.
Les deux modèles sont plus performants que les versions précédentes et peuvent utiliser des outils tels que la recherche Google pour effectuer des tâches.
L’équipe a démontré cette capacité en demandant à un chercheur de demander à Aloha d’utiliser des règles de recyclage en fonction de son emplacement pour trier certains objets dans des poubelles de compost, de recyclage et de poubelles. Le robot a reconnu que l’utilisateur se trouvait à San Francisco et a trouvé des règles de recyclage sur Internet pour l’aider à trier avec précision les déchets dans les réceptacles appropriés.
Une autre avancée représentée dans les nouveaux modèles est la capacité d’apprendre (et d’appliquer cet apprentissage) sur plusieurs systèmes robotiques. Les représentants de DeepMind ont déclaré dans un déclaration que tout apprentissage glané grâce à son robot Aloha 2 (la paire de bras robotiques), son robot humanoïde Apollo et son robot Franka à deux bras peut être appliqué à tout autre système en raison de la manière généralisée dont les modèles apprennent et évoluent.
« Les robots à usage général ont besoin d’une compréhension approfondie du monde physique, d’un raisonnement avancé et d’un contrôle général et adroit », a déclaré l’équipe Gemini Robotics dans un communiqué. rapport technique sur les nouveaux modèles. Ce type de raisonnement généralisé signifie que les modèles peuvent aborder un problème avec une large compréhension des espaces physiques et des interactions et résoudre le problème en conséquence, en décomposant les tâches en petites étapes individuelles qui peuvent être facilement exécutées. Cela contraste avec les approches antérieures, qui reposaient sur des connaissances spécialisées qui ne s’appliquaient qu’à des situations très spécifiques et étroites et à des robots individuels.
Les scientifiques ont fourni un exemple supplémentaire de la manière dont les robots pourraient aider dans un scénario réel. Ils ont présenté à un robot Apollo deux bacs et lui ont demandé de trier les vêtements par couleur – les blancs allant dans un bac et les autres couleurs dans l’autre. Ils ont ensuite ajouté un obstacle supplémentaire au fur et à mesure de l’avancement de la tâche en déplaçant les vêtements et les poubelles, obligeant le robot à réévaluer l’espace physique et à réagir en conséquence, ce qu’il a réussi à faire.

