Des chercheurs du MIT développent un moyen efficace de former des agents d’IA plus fiables | Actualités du MIT

Des chercheurs du MIT développent un moyen efficace de former des agents d'IA plus fiables | Actualités du MIT

Dans divers domaines tels que la robotique, la médecine et les sciences politiques, il est crucial de former les systèmes d’IA à prendre des décisions significatives. Par exemple, un système d’IA pourrait gérer intelligemment la circulation dans une ville encombrée, aidant ainsi les automobilistes à atteindre leur destination plus rapidement tout en améliorant la sécurité et la durabilité.

Cependant, enseigner à un système d’IA à prendre de bonnes décisions reste une tâche complexe.

Les modèles d’apprentissage par renforcement, qui soutiennent ces systèmes décisionnels d’IA, échouent souvent face à des variations, même minimes, dans les tâches pour lesquelles ils ont été formés. Par exemple, un modèle pourrait avoir des difficultés à gérer des intersections avec des limites de vitesse, des nombres de voies ou des schémas de circulation différents.

Pour améliorer la fiabilité des modèles d’apprentissage par renforcement dans des tâches complexes et variées, des chercheurs du MIT ont développé un algorithme plus efficace pour les entraîner.

L’algorithme choisit stratégiquement les meilleures tâches pour former un agent IA, lui permettant ainsi d’effectuer efficacement toutes les tâches d’un ensemble de tâches connexes. Dans le contexte du contrôle des feux de circulation, chaque tâche pourrait représenter une intersection dans un espace de tâches englobant toutes les intersections de la ville.

En se concentrant sur un nombre réduit d’intersections qui contribuent le plus à l’efficacité globale de l’algorithme, cette méthode maximise les performances tout en maintenant les coûts de formation à un niveau bas.

Les chercheurs ont constaté que leur technique était entre cinq et 50 fois plus efficace que les approches standard sur un ensemble de tâches simulées. Ce gain d’efficacité permet à l’algorithme d’apprendre plus rapidement une meilleure solution, améliorant ainsi les performances de l’agent IA.

« Nous avons observé d’incroyables améliorations de performances avec un algorithme très simple, en sortant des sentiers battus. Un algorithme peu complexe a plus de chances d’être adopté par la communauté car il est plus facile à mettre en œuvre et à comprendre », déclare l’auteure principale Cathy Wu, professeure agrégée en développement de carrière chez Thomas D. et Virginia W. Cabot en génie civil et environnemental (CEE) et à l’Institut des données, des systèmes et de la société (IDSS), et membre du Laboratoire des systèmes d’information et de décision (LIDS).

Elle est accompagnée sur le document par l’auteur principal Jung-Hoon Cho, étudiant diplômé du CEE ; Vindula Jayawardana, étudiante diplômée au Département de génie électrique et d’informatique (EECS) ; et Sirui Li, un étudiant diplômé de l’IDSS. La recherche sera présentée à la Conférence sur les systèmes de traitement de l’information neuronale.

Trouver un juste milieu

Pour entraîner un algorithme à contrôler les feux de circulation à de nombreuses intersections d’une ville, un ingénieur choisit généralement entre deux approches principales. Elle peut entraîner indépendamment un algorithme pour chaque intersection, en utilisant uniquement les données de cette intersection, ou entraîner un algorithme plus vaste en utilisant les données de toutes les intersections, puis l’appliquer à chacune d’entre elles.

Mais chaque approche a ses inconvénients. Former un algorithme distinct pour chaque tâche (comme une intersection donnée) est un processus long nécessitant une énorme quantité de données et de calculs, tandis que former un algorithme pour toutes les tâches conduit souvent à des performances médiocres.

Wu et ses collaborateurs ont cherché un juste milieu entre ces deux approches.

Pour leur méthode, ils choisissent un sous-ensemble de tâches et entraînent indépendamment un algorithme pour chaque tâche. Plus important encore, ils sélectionnent stratégiquement les tâches individuelles les plus susceptibles d’améliorer les performances globales de l’algorithme sur toutes les tâches.

Ils exploitent une astuce courante dans l’apprentissage par renforcement appelée apprentissage par transfert zéro, où un modèle déjà formé est appliqué à une nouvelle tâche sans être davantage formé. Avec l’apprentissage par transfert, le modèle fonctionne souvent remarquablement bien sur la tâche du nouveau voisin.

« Nous savons qu’il serait idéal de s’entraîner sur toutes les tâches, mais nous nous sommes demandé si nous pouvions nous entraîner sur un sous-ensemble de ces tâches, appliquer le résultat à toutes les tâches tout en constatant une augmentation des performances », explique Wu.

Pour identifier les tâches à sélectionner pour maximiser les performances attendues, les chercheurs ont développé un algorithme appelé Model-Based Transfer Learning (MBTL).

L’algorithme MBTL comporte deux éléments. D’une part, il modélise les performances de chaque algorithme s’il était formé indépendamment sur une tâche. Il modélise ensuite l’ampleur de la dégradation des performances de chaque algorithme s’il était transféré à une autre tâche, un concept connu sous le nom de performance de généralisation.

La modélisation explicite des performances de généralisation permet à MBTL d’estimer la valeur de la formation sur une nouvelle tâche.

MBTL effectue cela de manière séquentielle, en choisissant d’abord la tâche qui conduit au gain de performances le plus élevé, puis en sélectionnant les tâches supplémentaires qui fournissent les améliorations marginales ultérieures les plus importantes aux performances globales.

Étant donné que MBTL se concentre uniquement sur les tâches les plus prometteuses, il peut considérablement améliorer l’efficacité du processus de formation.

Réduire les coûts de formation

Lorsque les chercheurs ont testé cette technique sur des tâches simulées, notamment le contrôle des feux de circulation, la gestion des avis de vitesse en temps réel et l’exécution de plusieurs tâches de contrôle classiques, elle s’est avérée cinq à 50 fois plus efficace que les autres méthodes.

Cela signifie qu’ils pourraient arriver à la même solution en s’entraînant sur beaucoup moins de données. Par exemple, avec une efficacité 50 fois supérieure, l’algorithme MBTL pourrait s’entraîner sur seulement deux tâches et atteindre les mêmes performances qu’une méthode standard utilisant les données de 100 tâches.

« Du point de vue des deux approches principales, cela signifie que les données des 98 autres tâches n’étaient pas nécessaires ou que la formation sur les 100 tâches est source de confusion pour l’algorithme, de sorte que les performances finissent par être pires que les nôtres », explique Wu.

Avec MBTL, ajouter même une petite quantité de temps de formation supplémentaire pourrait conduire à de bien meilleures performances.

À l’avenir, les chercheurs prévoient de concevoir des algorithmes MBTL pouvant s’étendre à des problèmes plus complexes, tels que les espaces de tâches de grande dimension. Ils souhaitent également appliquer leur approche à des problèmes du monde réel, notamment dans les systèmes de mobilité de nouvelle génération.

La recherche est financée, en partie, par un prix CAREER de la National Science Foundation, le programme de bourses de doctorat de la Kwanjeong Educational Foundation et une bourse de doctorat Amazon Robotics.

Source