Imaginez devoir ranger une cuisine en désordre, en commençant par un comptoir encombré de sachets de sauce. Si votre objectif est de nettoyer le comptoir, vous pourriez balayer les paquets en groupe. Cependant, si vous vouliez trier les sachets de moutarde avant de jeter le reste, vous les trieriez par type de sauce. Et si vous aviez une préférence pour la marque Grey Poupon, trouver cette marque spécifique nécessiterait une recherche plus approfondie.
Les ingénieurs du MIT ont développé une méthode permettant aux robots de prendre des décisions de manière aussi intuitive et pertinente pour la tâche.
La nouvelle approche de l’équipe, appelée Clio, permet à un robot d’identifier les parties d’une scène qui sont importantes en fonction des tâches à accomplir. Avec Clio, un robot reçoit une liste de tâches décrites en langage naturel et, sur cette base, détermine le niveau de détail nécessaire pour interpréter son environnement et « mémoriser » uniquement les parties pertinentes d’une scène.
Dans des expériences allant d’une cabine encombrée à un bâtiment de cinq étages sur le campus du MIT, l’équipe a utilisé Clio pour segmenter automatiquement une scène à différents niveaux de détail, en fonction d’un ensemble de tâches spécifiées dans des invites en langage naturel telles que « déplacer le porte-revues » et « trouver une trousse de premiers soins ».
L’équipe a également testé Clio en temps réel sur un robot quadrupède. Alors que le robot explorait un immeuble de bureaux, Clio identifiait et cartographiait uniquement les parties de la scène liées aux tâches du robot (comme récupérer un jouet pour chien tout en ignorant les piles de fournitures de bureau), permettant au robot de saisir les objets d’intérêt.
Clio tire son nom de la muse grecque de l’histoire, en raison de sa capacité à identifier et mémoriser uniquement les éléments importants pour une tâche donnée. Les chercheurs pensent que Clio serait utile dans de nombreuses situations et environnements où un robot doit rapidement analyser et comprendre son environnement dans le contexte de sa tâche.
« La recherche et le sauvetage sont l’application principale de ce travail, mais Clio peut également propulser des robots domestiques et des robots travaillant dans une usine aux côtés des humains », explique Luca Carlone, professeur agrégé au département d’aéronautique et d’astronautique du MIT (AeroAstro), chercheur principal au Laboratoire des systèmes d’information et de décision (LIDS) et directeur du laboratoire MIT SPARK. « Il s’agit vraiment d’aider le robot à comprendre l’environnement et ce dont il doit se souvenir pour mener à bien sa mission. »
L’équipe détaille ses résultats dans une étude publiée aujourd’hui dans la revue Robotics and Automation Letters. Les co-auteurs de Carlone incluent des membres du SPARK Lab : Dominic Maggio, Yun Chang, Nathan Hughes et Lukas Schmid ; et des membres du MIT Lincoln Laboratory : Matthew Trang, Dan Griffith, Carlyn Dougherty et Eric Cristofalo.
Champs ouverts
Les progrès significatifs dans les domaines de la vision par ordinateur et du traitement du langage naturel ont permis aux robots d’identifier des objets dans leur environnement. Mais jusqu’à récemment, les robots ne pouvaient le faire que dans des scénarios « fermés », où ils étaient programmés pour travailler dans un environnement soigneusement organisé et contrôlé, avec un nombre limité d’objets que le robot avait été pré-entraîné à reconnaître.
Ces dernières années, les chercheurs ont adopté une approche plus « ouverte » pour permettre aux robots de reconnaître des objets dans des contextes plus réalistes. Dans le domaine de la reconnaissance ouverte, les chercheurs ont utilisé des outils d’apprentissage profond pour créer des réseaux neuronaux capables de traiter des milliards d’images provenant d’Internet, ainsi que le texte associé à chaque image (comme la photo d’un chien sur Facebook d’un ami, sous-titrée « Voici mon nouveau chiot ! »).
À partir de millions de paires image-texte, un réseau neuronal apprend, puis identifie, les segments d’une scène qui sont caractéristiques de certains termes, comme un chien. Un robot peut ensuite utiliser ce réseau neuronal pour repérer un chien dans une scène totalement nouvelle.
Mais il reste encore un défi : comment analyser une scène de manière utile et pertinente pour une tâche particulière.
« Les méthodes classiques sélectionnent un niveau de granularité fixe et arbitraire pour déterminer comment fusionner des segments d’une scène en ce que vous pouvez considérer comme un seul « objet », explique Maggio. « Cependant, la granularité de ce que vous appelez un « objet » est en réalité liée à ce que le robot doit faire. Si cette granularité est fixée sans prendre en compte les tâches, le robot risque de se retrouver avec une carte qui n’est pas utile pour ses tâches. »
Goulot d’étranglement de l’information
Avec Clio, l’équipe du MIT visait à permettre aux robots d’interpréter leur environnement avec un niveau de granularité pouvant être automatiquement adapté aux tâches à accomplir.
Par exemple, pour une tâche consistant à déplacer une pile de livres vers une étagère, le robot devrait être capable de déterminer que la pile entière de livres est l’objet pertinent pour la tâche. De même, si la tâche consistait à déplacer uniquement le livre vert du reste de la pile, le robot devrait distinguer le livre vert comme un objet cible unique et ignorer le reste de la scène, y compris les autres livres de la pile.
L’approche de l’équipe combine une vision par ordinateur de pointe et de grands modèles de langage comprenant des réseaux de neurones qui établissent des connexions entre des millions d’images et de textes sémantiques open source. Ils intègrent également des outils de cartographie qui divisent automatiquement une image en plusieurs petits segments, qui peuvent être introduits dans le réseau neuronal pour déterminer si certains segments sont sémantiquement similaires. Les chercheurs exploitent ensuite une idée de la théorie classique de l’information appelée « goulot d’étranglement de l’information », qu’ils utilisent pour compresser un certain nombre de segments d’image afin de sélectionner et stocker les segments sémantiquement les plus pertinents pour une tâche donnée.
« Par exemple, disons qu’il y a une pile de livres dans la scène et que ma tâche consiste simplement à récupérer le livre vert. Dans ce cas, nous faisons passer toutes ces informations sur la scène à travers ce goulot d’étranglement et nous nous retrouvons avec un groupe de segments qui représentent le livre vert », explique Maggio. « Tous les autres segments qui ne sont pas pertinents sont simplement regroupés dans un cluster que nous pouvons simplement supprimer. Et nous nous retrouvons avec un objet avec la bonne granularité, nécessaire pour prendre en charge ma tâche. »
Les chercheurs ont démontré Clio dans différents environnements réels.
« Ce que nous pensions être une expérience vraiment pragmatique serait de faire fonctionner Clio dans mon appartement, où je n’ai fait aucun ménage au préalable », explique Maggio.
L’équipe a dressé une liste de tâches en langage naturel, telles que « déplacer une pile de vêtements », puis a appliqué Clio aux images de l’appartement encombré de Maggio. Dans ces cas, Clio a pu segmenter rapidement les scènes de l’appartement et alimenter les segments via l’algorithme Information Bottleneck pour identifier les segments qui constituaient la pile de vêtements.
Ils ont également utilisé Clio sur le robot quadrupède de Boston Dynamics, Spot. Ils ont donné au robot une liste de tâches à accomplir et, pendant que le robot explorait et cartographiait l’intérieur d’un immeuble de bureaux, Clio fonctionnait en temps réel sur un ordinateur de bord monté sur Spot, pour sélectionner des segments dans les scènes cartographiées qui se rapportaient visuellement à la tâche donnée. La méthode a généré une carte superposée montrant uniquement les objets cibles, que le robot a ensuite utilisée pour s’approcher des objets identifiés et terminer physiquement la tâche.
« Faire fonctionner Clio en temps réel a été une grande réussite pour l’équipe », déclare Maggio. « De nombreux travaux préalables peuvent prendre plusieurs heures. »
À l’avenir, l’équipe prévoit d’adapter Clio pour qu’elle soit capable de gérer des tâches de plus haut niveau et de s’appuyer sur les avancées récentes en matière de représentations visuelles photoréalistes de scènes.
« Nous confions toujours à Clio des tâches quelque peu spécifiques, comme « trouver un jeu de cartes » », explique Maggio. « Pour la recherche et le sauvetage, vous devez lui confier des tâches de plus haut niveau, comme « trouver des survivants » ou « rétablir le courant ». Nous souhaitons donc parvenir à une compréhension plus humaine de la manière d’accomplir des tâches plus complexes. »
Cette recherche a été soutenue en partie par la Fondation nationale américaine pour la science, la Fondation nationale suisse pour la science, le laboratoire Lincoln du MIT, l’Office of Naval Research des États-Unis et l’Alliance de recherche collaborative sur les systèmes et technologies intelligents distribués et collaboratifs du laboratoire de recherche de l’armée américaine.