From left to right: team members Lukas Schmid, Nathan Hughes, Dominic Maggio, Yun Chang, and Luca Carlone. In front stands the robotic dog.

Spot, le chien robot de Boston Dynamics, peut désormais « jouer à chercher » – grâce à une percée du MIT

Par Anissa Chauvin



Des robots ressemblant à des chiens pourraient un jour apprendre à jouer à rapporter, grâce à un mélange de intelligence artificielle (IA) et vision par ordinateur les aidant à se concentrer sur les objets.

Dans une nouvelle étude publiée le 10 octobre dans la revue Lettres IEEE sur la robotique et l’automatisationles chercheurs ont développé une méthode appelée « Clio » qui permet aux robots de cartographier rapidement une scène à l’aide de caméras embarquées et d’identifier les parties les plus pertinentes pour la tâche qui leur a été assignée via des instructions vocales.

Clio exploite la théorie du « goulot d’étranglement de l’information », selon laquelle les informations sont compressées de telle sorte qu’un réseau neuronal – un ensemble d’algorithmes d’apprentissage automatique superposés pour imiter la façon dont le cerveau humain traite les informations – sélectionne et stocke uniquement les segments pertinents. Tout robot équipé du système traitera des instructions telles que « prendre une trousse de premiers soins », puis interprétera uniquement les parties de son environnement immédiat qui sont pertinentes pour ses tâches, en ignorant tout le reste.

« Par exemple, disons qu’il y a une pile de livres dans la scène et que ma tâche consiste simplement à obtenir le livre vert. Dans ce cas, nous faisons passer toutes ces informations sur la scène à travers ce goulot d’étranglement et nous nous retrouvons avec un groupe de segments qui représentent le livre vert », co-auteur de l’étude Dominique Maggioun étudiant diplômé du MIT, a déclaré dans un déclaration. « Tous les autres segments qui ne sont pas pertinents sont simplement regroupés dans un cluster que nous pouvons simplement supprimer. Et nous nous retrouvons avec un objet avec la bonne granularité qui est nécessaire pour prendre en charge ma tâche. »

Pour démontrer Clio en action, les chercheurs ont utilisé un robot quadrupède Boston Dynamics Spot exécutant Clio pour explorer un immeuble de bureaux et effectuer un ensemble de tâches. Travaillant en temps réel, Clio a généré une carte virtuelle affichant uniquement les objets pertinents pour ses tâches, ce qui a ensuite permis au robot Spot d’atteindre ses objectifs.

Voir, comprendre, faire

Les chercheurs ont atteint ce niveau de granularité avec Clio en combinant de grands modèles de langage (LLM) – plusieurs réseaux de neurones virtuels qui sous-tendent intelligence artificielle outils, systèmes et services – qui ont été formés pour identifier toutes sortes d’objets, avec la vision par ordinateur.

Les réseaux de neurones ont fait des progrès significatifs dans l’identification précise des objets dans des environnements locaux ou virtuels, mais il s’agit souvent de scénarios soigneusement sélectionnés avec un nombre limité d’objets pour lesquels un robot ou un système d’IA a été pré-entraîné. L’avancée qu’offre Clio réside dans la capacité d’être précis avec ce qu’il voit en temps réel, en fonction des tâches spécifiques qui lui sont assignées.

Une partie essentielle de ce projet consistait à intégrer un outil de cartographie dans Clio qui lui permet de diviser une scène en plusieurs petits segments. Un réseau de neurones sélectionne ensuite des segments sémantiquement similaires, ce qui signifie qu’ils servent la même intention ou forment des objets similaires.

En fait, l’idée est de disposer de robots basés sur l’IA capables de prendre des décisions intuitives et discriminantes en temps réel, plutôt que d’essayer de traiter d’abord une scène ou un environnement entier.

À l’avenir, les chercheurs prévoient d’adapter Clio pour gérer des tâches de plus haut niveau.

« Nous confions toujours à Clio des tâches quelque peu spécifiques, comme » trouver un jeu de cartes «  », a déclaré Maggio. « Pour la recherche et le sauvetage, vous devez lui confier des tâches de plus haut niveau, comme « trouver des survivants » ou « remettre le courant ».  » Nous souhaitons donc parvenir à une compréhension plus humaine de la manière d’accomplir davantage. tâches complexes. »

À tout le moins, Clio pourrait être la clé pour avoir des chiens robots capables de réellement jouer à rapporter, quel que soit le parc dans lequel ils courent.

Anissa Chauvin