Dans Star Trek : La prochaine génération, le capitaine Picard et l’équipage de l’USS Enterprise exploitent le holodeck, une salle vide capable de générer des environnements 3D, pour préparer les missions et se divertir, simulant tout, des jungles luxuriantes au Londres de Sherlock Holmes. Profondément immersifs et entièrement interactifs, les environnements créés par holodeck sont personnalisables à l’infini, en utilisant uniquement le langage : l’équipage n’a qu’à demander à l’ordinateur de générer un environnement, et cet espace apparaît dans le holodeck.
Aujourd’hui, les environnements interactifs virtuels sont également utilisés pour former des robots avant leur déploiement dans le monde réel dans le cadre d’un processus appelé « Sim2Real ». Cependant, les environnements interactifs virtuels sont étonnamment rares. « Les artistes créent manuellement ces environnements », explique Yue Yang, doctorant dans les laboratoires de Mark Yatskar et Chris Callison-Burch, respectivement professeurs adjoints et agrégés en informatique et sciences de l’information (CIS). « Ces artistes pourraient passer une semaine à construire un environnement unique », ajoute Yang, notant toutes les décisions impliquées, de la disposition de l’espace au placement des objets en passant par les couleurs utilisées dans le rendu.
Le manque d’environnements virtuels est un problème si vous souhaitez entraîner des robots à naviguer dans le monde réel avec toutes ses complexités. Les réseaux de neurones, les systèmes qui alimentent la révolution actuelle de l’IA, nécessitent d’énormes quantités de données, ce qui dans ce cas implique des simulations du monde physique. « Les systèmes d’IA générative comme ChatGPT sont formés sur des milliards de mots, et les générateurs d’images comme Midjourney et DALLE sont formés sur des milliards d’images », explique Callison-Burch. « Nous ne disposons que d’une fraction de ce nombre d’environnements 3D pour former ce que l’on appelle « l’IA incarnée ». Si nous voulons utiliser des techniques d’IA générative pour développer des robots capables de naviguer en toute sécurité dans des environnements réels, nous devrons alors créer des millions, voire des milliards d’environnements simulés. »
Entrez Holodeck, un système de génération d’environnements 3D interactifs co-créé par Callison-Burch, Yatskar, Yang et Lingjie Liu, Aravind K. Joshi, professeur adjoint à CIS, avec des collaborateurs de Stanford, de l’Université de Washington et de l’Allen Institute for Intelligence artificielle (AI2). Nommé pour son Star Trek ancêtre, Holodeck génère une gamme pratiquement illimitée d’environnements intérieurs, en utilisant l’IA pour interpréter les demandes des utilisateurs. « Nous pouvons utiliser le langage pour le contrôler », explique Yang. « Vous pouvez facilement décrire les environnements de votre choix et former les agents IA incarnés. »
Holodeck exploite les connaissances intégrées dans les grands modèles de langage (LLM), les systèmes sous-jacents à ChatGPT et d’autres chatbots. « La langue est une représentation très concise du monde entier », explique Yang. En effet, les LLM s’avèrent avoir un degré étonnamment élevé de connaissances sur la conception des espaces, grâce aux grandes quantités de textes qu’ils ingèrent pendant la formation. Essentiellement, Holodeck fonctionne en engageant une conversation avec un LLM, en utilisant une série de requêtes cachées soigneusement structurées pour décomposer les demandes des utilisateurs en paramètres spécifiques.
Tout comme le capitaine Picard pourrait demander au Holodeck de Star Trek de simuler un bar clandestin, les chercheurs peuvent demander au Holodeck de Penn de créer « un appartement 1b1b d’un chercheur qui a un chat ». Le système exécute cette requête en la divisant en plusieurs étapes : d’abord, le sol et les murs sont créés, puis la porte et les fenêtres. Ensuite, Holodeck recherche dans Objaverse, une vaste bibliothèque d’objets numériques prédéfinis, le type de mobilier auquel vous pouvez vous attendre dans un tel espace : une table basse, une tour à chat, etc. Enfin, Holodeck interroge un module de disposition, que les chercheurs ont conçu pour limiter le placement des objets, afin que vous ne vous retrouviez pas avec des toilettes s’étendant horizontalement à partir du mur.
Pour évaluer les capacités du Holodeck, en termes de réalisme et de précision, les chercheurs ont généré 120 scènes en utilisant à la fois Holodeck et ProcTHOR, un outil antérieur créé par AI2, et ont demandé à plusieurs centaines d’étudiants de Penn Engineering d’indiquer leur version préférée, sans savoir quelles scènes avaient été créées. par quels outils. Pour chaque critère (sélection des actifs, cohérence de la mise en page et préférence globale), les étudiants ont systématiquement évalué plus favorablement les environnements générés par Holodeck.
Les chercheurs ont également testé la capacité du Holodeck à générer des scènes moins typiques de la recherche en robotique et plus difficiles à créer manuellement que les intérieurs d’appartements, comme les magasins, les espaces publics et les bureaux. En comparant les résultats de Holodeck à ceux de ProcTHOR, qui ont été générés à l’aide de règles créées par l’homme plutôt que de texte généré par l’IA, les chercheurs ont découvert une fois de plus que les évaluateurs humains préféraient les scènes créées par Holodeck. Cette préférence s’est répandue dans un large éventail d’environnements intérieurs, des laboratoires scientifiques aux studios d’art, des vestiaires aux caves à vin.
Enfin, les chercheurs ont utilisé des scènes générées par Holodeck pour « affiner » un agent IA incarné. « Le test ultime du Holodeck », explique Yatskar, « consiste à l’utiliser pour aider les robots à interagir avec leur environnement de manière plus sûre en les préparant à habiter des endroits où ils ne sont jamais allés auparavant. »
Dans plusieurs types d’espaces virtuels, notamment les bureaux, les garderies, les gymnases et les salles d’arcade, Holodeck a eu un effet prononcé et positif sur la capacité de l’agent à naviguer dans de nouveaux espaces.
Par exemple, alors que l’agent n’a réussi à trouver un piano dans une salle de musique qu’environ 6 % du temps lors d’une pré-formation à l’aide de ProcTHOR (qui impliquait que l’agent fasse environ 400 millions de pas virtuels), l’agent a réussi dans plus de 30 % du temps lorsque affiné à l’aide de 100 salles de musique générées par Holodeck.
« Ce domaine est resté longtemps bloqué dans la recherche sur les espaces résidentiels », explique Yang. « Mais il existe tellement d’environnements différents : générer efficacement un grand nombre d’environnements pour entraîner des robots a toujours été un grand défi, mais Holodeck fournit cette fonctionnalité. »