Les grands modèles de langage (LLM) sont puissants en raison de leur capacité à accomplir une grande variété de tâches. Par exemple, un même modèle peut aider un étudiant à rédiger un e-mail ou un clinicien à diagnostiquer un cancer.
Cependant, cette polyvalence complique leur évaluation systématique. Il est impossible de créer un ensemble de données de référence pour tester un modèle sur toutes les questions possibles.
Dans un nouvel article, des chercheurs du MIT ont adopté une approche différente. Ils soutiennent que, puisque ce sont les humains qui décident quand utiliser les LLM, il est crucial de comprendre comment les gens forment des croyances sur les capacités de ces modèles.
Par exemple, un étudiant doit décider si le modèle peut l’aider à rédiger un e-mail spécifique, et un clinicien doit déterminer dans quels cas il serait utile de consulter le modèle.
Partant de cette idée, les chercheurs ont créé un cadre pour évaluer un LLM en fonction de son alignement avec les croyances humaines sur ses performances pour une tâche donnée.
Ils ont introduit une fonction de généralisation humaine – un modèle de la manière dont les gens mettent à jour leurs croyances sur les capacités d’un LLM après avoir interagi avec lui. Ensuite, ils ont évalué dans quelle mesure les LLM sont alignés sur cette fonction de généralisation humaine.
Leurs résultats montrent que lorsque les modèles ne sont pas alignés avec la fonction de généralisation humaine, les utilisateurs peuvent être trop ou pas assez confiants quant à leur utilisation, ce qui peut entraîner des échecs inattendus. En outre, ce désalignement fait que les modèles plus performants peuvent être moins efficaces que les modèles plus petits dans des situations à enjeux élevés.
« Ces outils sont passionnants parce qu’ils sont polyvalents, mais cette polyvalence signifie qu’ils collaboreront avec des humains, nous devons donc prendre en compte l’humain dans la boucle », explique Ashesh Rambachan, co-auteur de l’étude et professeur assistant d’économie et chercheur principal au Laboratoire des systèmes d’information et de décision (LIDS).
Rambachan a co-écrit l’article avec Keyon Vafa, postdoctorant à l’Université Harvard, et Sendhil Mullainathan, professeur au MIT dans les départements de génie électrique, d’informatique et d’économie, et membre du LIDS. La recherche sera présentée à la Conférence internationale sur l’apprentissage automatique.
Généralisation humaine
Lorsque nous interagissons avec d’autres personnes, nous formons des croyances sur ce qu’elles savent ou ne savent pas faire. Par exemple, si votre ami est bon en grammaire, vous pourriez supposer qu’il est également bon en construction de phrases, même si vous ne l’avez jamais vu le faire.
« Les modèles linguistiques semblent souvent très humains. Nous voulions montrer que cette force de généralisation humaine est également présente dans la manière dont les gens forment des croyances sur les modèles de langage », explique Rambachan.
Les chercheurs ont formellement défini la fonction de généralisation humaine, qui consiste à poser des questions, observer les réponses, puis tirer des conclusions sur la capacité à répondre à des questions connexes.
Par exemple, si quelqu’un voit qu’un LLM peut répondre correctement à des questions sur l’inversion matricielle, il peut supposer qu’il peut également répondre à des questions sur l’arithmétique simple. Un modèle mal aligné sur cette fonction pourrait échouer une fois déployé.
Avec cette définition en main, les chercheurs ont conçu une enquête pour mesurer comment les gens généralisent lorsqu’ils interagissent avec des LLM et d’autres personnes.
Ils ont montré aux participants des questions auxquelles une personne ou un LLM avait répondu correctement ou incorrectement, puis leur ont demandé s’ils pensaient que cette personne ou ce LLM répondrait correctement à une question connexe. Ils ont ainsi généré un ensemble de données de près de 19 000 exemples de la manière dont les humains généralisent les performances des LLM à travers 79 tâches diverses.
Mesurer le désalignement
Ils ont constaté que les participants réussissaient bien à généraliser les performances humaines, mais étaient moins bons pour généraliser celles des LLM.
« La généralisation humaine est appliquée aux modèles de langage, mais cela ne fonctionne pas car ces modèles ne montrent pas de schémas d’expertise comme le feraient les humains », explique Rambachan.
Les gens étaient également plus susceptibles de mettre à jour leurs croyances sur un LLM lorsqu’il répondait incorrectement aux questions que lorsqu’il répondait correctement. Ils avaient également tendance à croire que la performance du LLM sur des questions simples n’influencerait pas sa performance sur des questions plus complexes.
Dans les situations où les réponses incorrectes sont plus importantes, les modèles plus simples ont surpassé les très grands modèles comme GPT-4.
« Les modèles linguistiques qui s’améliorent peuvent presque faire croire aux gens qu’ils réussiront bien sur des questions connexes alors qu’en réalité, ils ne le font pas », dit-il.
Une explication possible de cette difficulté à généraliser les LLM pourrait être leur nouveauté : les gens ont beaucoup moins d’expérience en interaction avec les LLM qu’avec d’autres personnes.
« À l’avenir, il est possible que nous nous améliorions simplement en interagissant davantage avec les modèles de langage », dit-il.
Les chercheurs souhaitent mener des études supplémentaires sur l’évolution des croyances des gens à l’égard des LLM au fil du temps. Ils souhaitent également explorer comment intégrer la généralisation humaine dans le développement des LLM.
« Lorsque nous entraînons ces algorithmes ou essayons de les mettre à jour avec des commentaires humains, nous devons tenir compte de la fonction de généralisation humaine dans notre façon de penser à mesurer les performances », dit-il.
En attendant, les chercheurs espèrent que leur ensemble de données pourra servir de référence pour comparer les performances des LLM par rapport à la fonction de généralisation humaine, ce qui pourrait améliorer les performances des modèles dans des situations réelles.
« Pour moi, la contribution de l’article est double. La première est pratique : il révèle un problème critique lié au déploiement de LLM pour un usage grand public. Si les gens ne comprennent pas correctement quand les LLM seront précis et quand ils échoueront, ils seront plus susceptibles de constater des erreurs et pourraient être découragés de les utiliser davantage. Cela met en évidence la question de l’alignement des modèles sur la compréhension qu’ont les gens de la généralisation », explique Alex Imas, professeur de sciences comportementales et d’économie à la Booth School of Business de l’Université de Chicago, qui n’a pas participé à ce travail. « La deuxième contribution est plus fondamentale : le manque de généralisation aux problèmes et domaines attendus aide à mieux comprendre ce que font les modèles lorsqu’ils obtiennent une réponse correcte. Cela permet de tester si les LLM ‘comprennent’ le problème qu’ils résolvent. »
Cette recherche a été financée, en partie, par la Harvard Data Science Initiative et le Center for Applied AI de la Booth School of Business de l’Université de Chicago.