Avec l’essor des modèles d’intelligence artificielle (IA) dans divers domaines comme la santé, la finance, l’éducation, les transports et le divertissement, il devient crucial de comprendre leur fonctionnement interne. L’interprétation des mécanismes sous-jacents des modèles d’IA permet de vérifier leur sécurité et leurs biais, tout en approfondissant notre compréhension de la science de l’intelligence.
Imaginez pouvoir étudier directement le cerveau humain en manipulant chaque neurone pour comprendre son rôle dans la perception d’un objet particulier. Bien que cette approche soit trop invasive pour le cerveau humain, elle est plus réalisable avec les réseaux neuronaux artificiels. Cependant, comme le cerveau humain, les modèles artificiels avec des millions de neurones sont trop complexes pour une étude manuelle, rendant l’interprétabilité à grande échelle très difficile.
Pour surmonter ce défi, les chercheurs du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT ont adopté une approche automatisée pour interpréter les modèles de vision artificielle qui évaluent différentes propriétés des images. Ils ont développé « MAIA » (Multimodal Automated Interpretability Agent), un système qui automatise diverses tâches d’interprétabilité des réseaux neuronaux en utilisant un modèle de langage de vision équipé d’outils pour expérimenter sur d’autres systèmes d’IA.
« Notre objectif est de créer un chercheur en IA capable de mener des expériences d’interprétabilité de manière autonome. Les méthodes d’interprétabilité automatisées existantes se contentent d’étiqueter ou de visualiser les données dans un processus unique. En revanche, MAIA peut générer des hypothèses, concevoir des expériences pour les tester et affiner sa compréhension grâce à une analyse itérative », explique Tamar Rott Shaham, postdoctorante en génie électrique et informatique (EECS) au MIT CSAIL et co-auteur d’un nouvel article de recherche. « En combinant un modèle de langage de vision pré-entraîné avec une bibliothèque d’outils d’interprétabilité, notre méthode multimodale peut répondre aux requêtes des utilisateurs en composant et en exécutant des expériences ciblées sur des modèles spécifiques, affinant continuellement son approche jusqu’à fournir une réponse complète. »
L’agent automatisé a démontré sa capacité à accomplir trois tâches clés : étiqueter les composants individuels à l’intérieur des modèles de vision et décrire les concepts visuels qui les activent, nettoyer les classificateurs d’images en supprimant les fonctionnalités non pertinentes pour les rendre plus robustes face à de nouvelles situations, et rechercher les biais cachés dans les systèmes d’IA pour aider à découvrir les problèmes potentiels d’équité dans leurs résultats. « Mais l’un des principaux avantages d’un système comme MAIA est sa flexibilité », explique Sarah Schwettmann, PhD ’21, chercheuse scientifique au CSAIL et co-responsable de la recherche. « Nous avons démontré l’utilité de MAIA sur quelques tâches spécifiques, mais étant donné que le système est construit à partir d’un modèle de base doté de larges capacités de raisonnement, il peut répondre à de nombreux types de requêtes d’interprétabilité des utilisateurs et concevoir des expériences à la volée pour les étudier. »
Neurone par neurone
Dans un exemple de tâche, un utilisateur demande à MAIA de décrire les concepts qu’un neurone particulier à l’intérieur d’un modèle de vision est chargé de détecter. Pour étudier cette question, MAIA utilise d’abord un outil qui récupère des « exemplaires d’ensembles de données » de l’ensemble de données ImageNet, qui activent au maximum le neurone. Pour cet exemple de neurone, ces images montrent des personnes en tenue formelle et des gros plans de leur menton et de leur cou. MAIA émet diverses hypothèses sur ce qui détermine l’activité du neurone : les expressions faciales, le menton ou les cravates. MAIA utilise ensuite ses outils pour concevoir des expériences afin de tester chaque hypothèse individuellement en générant et en éditant des images synthétiques. Dans une expérience, l’ajout d’un nœud papillon à une image d’un visage humain augmente la réponse du neurone. « Cette approche nous permet de déterminer la cause spécifique de l’activité du neurone, un peu comme une véritable expérience scientifique », explique Rott Shaham.
Les explications de MAIA sur les comportements neuronaux sont évaluées de deux manières principales. Premièrement, des systèmes synthétiques avec des comportements connus de vérité terrain sont utilisés pour évaluer l’exactitude des interprétations de MAIA. Deuxièmement, pour les « vrais » neurones à l’intérieur de systèmes d’IA entraînés sans descriptions de vérité terrain, les auteurs conçoivent un nouveau protocole d’évaluation automatisé qui mesure dans quelle mesure les descriptions de MAIA prédisent le comportement des neurones sur des données invisibles.
La méthode menée par CSAIL a surpassé les méthodes de base décrivant des neurones individuels dans divers modèles de vision tels que ResNet, CLIP et le transformateur de vision DINO. MAIA a également obtenu de bons résultats sur le nouvel ensemble de données de neurones synthétiques avec des descriptions de vérité terrain connues. Pour les systèmes réels et synthétiques, les descriptions étaient souvent comparables à celles rédigées par des experts humains.
En quoi les descriptions des composants du système d’IA, comme les neurones individuels, sont-elles utiles ? « Comprendre et localiser les comportements à l’intérieur des grands systèmes d’IA est un élément clé de l’audit de sécurité de ces systèmes avant leur déploiement. Dans certaines de nos expériences, nous montrons comment MAIA peut être utilisé pour trouver des neurones présentant des comportements indésirables et supprimer ces comportements d’un modèle », déclare Schwettmann. « Nous nous dirigeons vers un écosystème d’IA plus résilient, où les outils de compréhension et de surveillance des systèmes d’IA suivent le rythme de l’évolution du système, ce qui nous permet d’enquêter et, espérons-le, de comprendre les défis imprévus introduits par les nouveaux modèles. »
Un coup d’œil à l’intérieur des réseaux de neurones
Le domaine naissant de l’interprétabilité devient un champ de recherche distinct parallèlement à l’essor des modèles d’apprentissage automatique « boîte noire ». Comment les chercheurs peuvent-ils découvrir ces modèles et comprendre leur fonctionnement ?
Les méthodes actuelles permettant de jeter un coup d’œil à l’intérieur ont tendance à être limitées soit par leur ampleur, soit par la précision des explications qu’elles peuvent produire. De plus, les méthodes existantes tendent à s’adapter à un modèle particulier et à une tâche spécifique. Cela a amené les chercheurs à se demander : comment pouvons-nous créer un système générique pour aider les utilisateurs à répondre aux questions d’interprétabilité des modèles d’IA tout en combinant la flexibilité de l’expérimentation humaine avec l’évolutivité des techniques automatisées ?
L’un des domaines critiques qu’ils souhaitaient que ce système aborde était celui des préjugés. Pour déterminer si les classificateurs d’images affichaient un biais à l’égard de sous-catégories particulières d’images, l’équipe a examiné la dernière couche du flux de classification (dans un système conçu pour trier ou étiqueter les éléments, un peu comme une machine qui identifie si une photo est celle d’un chien, d’un chat, ou d’un oiseau) et les scores de probabilité des images d’entrée (niveaux de confiance que la machine attribue à ses suppositions). Pour comprendre les biais potentiels dans la classification des images, il a été demandé à MAIA de trouver un sous-ensemble d’images dans des classes spécifiques (par exemple « labrador retriever ») susceptibles d’être incorrectement étiquetées par le système. Dans cet exemple, MAIA a constaté que les images de labradors noirs étaient susceptibles d’être mal classées, ce qui suggère un biais du modèle en faveur des retrievers à fourrure jaune.
Puisque MAIA s’appuie sur des outils externes pour concevoir des expériences, ses performances sont limitées par la qualité de ces outils. Mais à mesure que la qualité des outils tels que les modèles de synthèse d’images s’améliore, MAIA évoluera également. MAIA présente également parfois un biais de confirmation, où il confirme parfois de manière incorrecte son hypothèse initiale. Pour atténuer ce problème, les chercheurs ont construit un outil de conversion d’image en texte, qui utilise une instance différente du modèle de langage pour résumer les résultats expérimentaux. Un autre mode d’échec est le surajustement d’une expérience particulière, où le modèle tire parfois des conclusions prématurées basées sur des preuves minimales.
« Je pense que la prochaine étape naturelle pour notre laboratoire consiste à aller au-delà des systèmes artificiels et à appliquer des expériences similaires à la perception humaine », explique Rott Shaham. « Tester cela nécessite traditionnellement de concevoir et de tester manuellement des stimuli, ce qui demande beaucoup de main-d’œuvre. Avec notre agent, nous pouvons étendre ce processus, en concevant et en testant simultanément de nombreux stimuli. Cela pourrait également nous permettre de comparer la perception visuelle humaine avec des systèmes artificiels. »
« Comprendre les réseaux neuronaux est difficile pour les humains car ils possèdent des centaines de milliers de neurones, chacun ayant des modèles de comportement complexes. MAIA aide à résoudre ce problème en développant des agents d’IA capables d’analyser automatiquement ces neurones et de rapporter les résultats distillés aux humains de manière digestible », explique Jacob Steinhardt, professeur adjoint à l’Université de Californie à Berkeley, qui n’a pas participé à la recherche. « La mise à l’échelle de ces méthodes pourrait être l’une des voies les plus importantes pour comprendre et superviser en toute sécurité les systèmes d’IA. »
Rott Shaham et Schwettmann sont rejoints par cinq collègues affiliés au CSAIL sur le journal : l’étudiant de premier cycle Franklin Wang ; Achyuta Rajaram, nouvel étudiant du MIT ; Evan Hernandez, doctorant à l’EECS SM ’22 ; et les professeurs EECS Jacob Andreas et Antonio Torralba. Leur travail a été soutenu, en partie, par le MIT-IBM Watson AI Lab, Open Philanthropy, Hyundai Motor Co., le Army Research Laboratory, Intel, la National Science Foundation, le Zuckerman STEM Leadership Program et la Viterbi Fellowship. Les résultats des chercheurs seront présentés cette semaine à la Conférence internationale sur l’apprentissage automatique.