Dans le domaine de l’intelligence artificielle, les apparences peuvent souvent être trompeuses. Les grands modèles de langage (LLM) sont entourés de mystère en raison de leur taille immense, de leurs méthodes d’entraînement complexes, de leurs comportements imprévisibles et de leur difficulté à être interprétés.
Des chercheurs du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT ont récemment mené une étude approfondie pour examiner comment ces modèles se comportent dans diverses tâches, révélant des informations intrigantes sur l’interaction entre leurs capacités de mémorisation et de raisonnement. Il s’avère que leurs capacités de raisonnement sont souvent surestimées.
L’étude a comparé les « tâches par défaut », c’est-à-dire les tâches courantes sur lesquelles un modèle est formé et testé, avec des « scénarios contrefactuels », des situations hypothétiques qui s’écartent des conditions par défaut – des situations que des modèles comme GPT-4 et Claude peuvent généralement gérer. Les chercheurs ont modifié des tâches existantes pour créer ces scénarios, plutôt que d’en inventer de nouvelles. Ils ont utilisé une variété d’ensembles de données et de références adaptées à différents aspects des capacités des modèles, telles que l’arithmétique, les échecs, l’évaluation du code, et la réponse à des questions logiques.
Lorsque les utilisateurs interagissent avec des modèles de langage, toute arithmétique est généralement en base 10, la base numérique familière aux modèles. Mais observer qu’ils réussissent bien en base 10 pourrait nous donner la fausse impression qu’ils possèdent de fortes compétences en général. Logiquement, s’ils possèdent réellement de bonnes compétences en addition, on s’attendrait à des performances élevées et fiables sur toutes les bases numériques, comme c’est le cas pour les calculatrices ou les ordinateurs. Cependant, la recherche a montré que ces modèles ne sont pas aussi robustes qu’on pourrait le penser. Leurs performances élevées sont limitées aux variantes de tâches courantes et souffrent d’une baisse de performance constante et sévère dans les scénarios contrefactuels peu familiers, indiquant un manque de capacité d’addition généralisable.
Ce modèle s’applique à de nombreuses autres tâches, telles que le doigté d’accords musicaux, le raisonnement spatial et même les problèmes d’échecs où les positions de départ des pièces sont légèrement modifiées. Alors que les joueurs humains devraient toujours être capables de déterminer la légalité des mouvements dans des scénarios modifiés (avec suffisamment de temps), les modèles ont eu du mal et n’ont pas pu faire mieux que des suppositions aléatoires, ce qui signifie qu’ils ont une capacité limitée à généraliser à des situations inconnues. Une grande partie de leurs performances sur les tâches standard n’est probablement pas due à des capacités générales de tâches, mais à un surapprentissage ou à une mémorisation directe de ce qu’ils ont vu dans leurs données d’entraînement.
« Nous avons découvert un aspect fascinant des grands modèles de langage : ils excellent dans des scénarios familiers, presque comme sur un chemin bien tracé, mais ont du mal lorsque le terrain devient inconnu. Cette information est cruciale alors que nous nous efforçons d’améliorer l’adaptabilité de ces modèles et d’élargir leurs horizons d’application », déclare Zhaofeng Wu, doctorant au MIT en génie électrique et informatique, affilié au CSAIL, et auteur principal d’un nouveau papier sur la recherche. « Alors que l’IA devient de plus en plus omniprésente dans notre société, elle doit gérer de manière fiable divers scénarios, qu’ils soient familiers ou non. Nous espérons que ces informations éclaireront un jour la conception des futurs LLM avec une robustesse améliorée.
Malgré les connaissances acquises, il existe bien sûr des limites. L’accent mis par l’étude sur des tâches et des paramètres spécifiques n’a pas pris en compte l’ensemble des défis que les modèles pourraient potentiellement rencontrer dans des applications réelles, ce qui souligne la nécessité d’environnements de test plus diversifiés. Les travaux futurs pourraient impliquer d’élargir l’éventail des tâches et des conditions contrefactuelles afin de découvrir davantage de faiblesses potentielles. Cela pourrait impliquer d’envisager des scénarios plus complexes et moins courants. L’équipe souhaite également améliorer l’interprétabilité en créant des méthodes permettant de mieux comprendre la logique derrière les processus décisionnels des modèles.
« À mesure que les modèles de langage évoluent, la compréhension de leurs données de formation devient de plus en plus difficile, même pour les modèles ouverts, sans parler des modèles propriétaires », explique Hao Peng, professeur adjoint à l’Université de l’Illinois à Urbana-Champaign. « La communauté reste perplexe quant à savoir si ces modèles se généralisent véritablement à des tâches invisibles, ou s’ils semblent réussir en mémorisant les données d’entraînement. Cet article fait des progrès importants dans la réponse à cette question. Il construit une suite d’évaluations contrefactuelles soigneusement conçues, fournissant de nouvelles informations sur les capacités des LLM de pointe. Cela révèle que leur capacité à résoudre des tâches invisibles est peut-être bien plus limitée que beaucoup le pensent. Il a le potentiel d’inspirer de futures recherches visant à identifier les modes de défaillance des modèles actuels et à en développer de meilleurs.
Parmi les autres auteurs figurent Najoung Kim, professeur adjoint à l’Université de Boston et chercheur invité par Google, et sept affiliés du CSAIL : Linlu Qiu, Alexis Ross, Ekin Akyürek SM ’21 et Boyuan Chen, doctorants en génie électrique et informatique (EECS) du MIT ; Bailin Wang, ancien postdoctorant et chercheur Apple AI/ML ; et les professeurs adjoints de l’EECS Jacob Andreas et Yoon Kim.
L’étude de l’équipe a été soutenue, en partie, par le MIT-IBM Watson AI Lab, le MIT Quest for Intelligence et la National Science Foundation. L’équipe a présenté ses travaux au chapitre nord-américain de l’Association for Computational Linguistics (NAACL) le mois dernier.