Par Sarah Collins
Une équipe composée d’informaticiens, d’ingénieurs, de mathématiciens et de spécialistes des sciences cognitives a mis au point une plateforme d’évaluation open source appelée CheckMate. Cette plateforme permet aux utilisateurs d’interagir avec les grands modèles de langage (LLM) et d’évaluer leurs performances.
Les chercheurs ont testé CheckMate lors d’une expérience où des participants utilisaient trois LLM – InstructGPT, ChatGPT et GPT-4 – comme assistants pour résoudre des problèmes mathématiques de niveau universitaire.
« Toute personne utilisant un LLM, pour n’importe quelle application, doit toujours prêter attention au résultat et le vérifier elle-même. »
– Albert Jiang
L’étude a examiné dans quelle mesure les LLM peuvent aider à résoudre des problèmes. Bien qu’il y ait une corrélation positive entre l’exactitude d’un chatbot et son utilité perçue, les chercheurs ont trouvé des cas où les LLM étaient incorrects mais néanmoins utiles. Cependant, certains résultats incorrects ont été jugés corrects par les participants, surtout avec les LLM optimisés pour le chat.
Les chercheurs suggèrent que les modèles qui communiquent l’incertitude, répondent bien aux corrections des utilisateurs et fournissent des justifications concises de leurs recommandations sont de meilleurs assistants. Les utilisateurs doivent vérifier soigneusement les résultats des LLM, compte tenu de leurs lacunes actuelles.
Les résultats, publiés dans les Actes de la National Academy of Sciences (PNAS), pourraient aider à la formation à l’IA et à l’amélioration des LLM pour diverses utilisations.
Bien que les LLM deviennent de plus en plus puissants, ils peuvent toujours commettre des erreurs et fournir des informations incorrectes, ce qui pourrait avoir des conséquences négatives à mesure qu’ils s’intègrent davantage dans notre vie quotidienne.
« Les LLM sont devenus très populaires, et il est important d’évaluer leurs performances de manière quantitative, mais nous devons également évaluer comment ces systèmes fonctionnent avec les gens et peuvent les aider », a déclaré Albert Jiang, co-premier auteur et membre du département d’informatique de Cambridge. « Nous ne disposons pas encore de moyens complets d’évaluer les performances d’un LLM lorsqu’il interagit avec des humains. »
La méthode standard d’évaluation des LLM repose sur des paires statiques d’entrées et de sorties, ce qui ne tient pas compte de la nature interactive des chatbots. CheckMate a été développé pour répondre à ces questions, notamment pour les applications en mathématiques.
« Lorsque nous parlons aux mathématiciens des LLM, beaucoup se divisent en deux camps : ceux qui pensent que les LLM peuvent produire des preuves mathématiques complexes par eux-mêmes, et ceux qui pensent qu’ils ne peuvent même pas faire de l’arithmétique simple », a déclaré Katie Collins, co-première auteure du département d’ingénierie. « La vérité se situe probablement entre les deux, mais nous voulions évaluer pour quelles tâches les LLM sont adaptés et lesquelles ne le sont pas. »
Les chercheurs ont recruté 25 mathématiciens, allant des étudiants de premier cycle aux professeurs seniors, pour interagir avec trois LLM différents (InstructGPT, ChatGPT et GPT-4) et évaluer leurs performances à l’aide de CheckMate. Les participants ont travaillé sur des théorèmes mathématiques de premier cycle avec l’aide d’un LLM et ont évalué chaque réponse pour son exactitude et son utilité. Ils ne savaient pas quel LLM ils utilisaient.
Les chercheurs ont enregistré les types de questions posées, comment les participants ont réagi aux réponses incorrectes, s’ils ont tenté de corriger le LLM et comment, ou s’ils ont demandé des éclaircissements. Les niveaux d’expérience des participants dans la rédaction d’invites efficaces pour les LLM variaient, affectant souvent la qualité des réponses fournies.
Un exemple d’invite efficace est « Quelle est la définition de X » (X étant un concept du problème), car les chatbots peuvent être très efficaces pour récupérer et expliquer les concepts qu’ils connaissent.
« Nous avons découvert la faillibilité surprenante de ces modèles », a déclaré Collins. « Parfois, ces LLM sont très bons en mathématiques de niveau supérieur, puis échouent dans des tâches beaucoup plus simples. Cela montre qu’il est essentiel de bien réfléchir à la manière d’utiliser les LLM de manière efficace et appropriée. »
Cependant, les participants humains ont également commis des erreurs. Les chercheurs ont demandé aux participants d’évaluer leur confiance en leur propre capacité à résoudre les problèmes pour lesquels ils utilisaient le LLM. Lorsque les participants avaient moins confiance en leurs capacités, ils étaient plus susceptibles de considérer comme correctes les réponses incorrectes des LLM.
« Cela pose un grand défi dans l’évaluation des LLM, car ils deviennent si doués pour générer un langage naturel agréable et apparemment correct qu’il est facile de se laisser berner par leurs réponses », a déclaré Jiang. « Cela montre également que même si l’évaluation humaine est utile et importante, elle est nuancée et parfois erronée. Toute personne utilisant un LLM, pour n’importe quelle application, doit toujours prêter attention au résultat et le vérifier elle-même. »
Les résultats de CheckMate montrent que les nouvelles générations de LLM sont de plus en plus capables de collaborer efficacement avec des utilisateurs humains sur des problèmes mathématiques de premier cycle, à condition que l’utilisateur puisse évaluer l’exactitude des réponses générées. Bien que les réponses puissent être mémorisées et trouvées sur Internet, les LLM sont plus flexibles dans leurs entrées et sorties par rapport aux moteurs de recherche traditionnels (bien qu’ils ne devraient pas remplacer les moteurs de recherche dans leur forme actuelle).
Bien que CheckMate ait été testé sur des problèmes mathématiques, les chercheurs affirment que la plateforme pourrait être adaptée à divers domaines. À l’avenir, ce type de retour d’information pourrait être intégré dans les LLM eux-mêmes, bien qu’aucun retour d’information de CheckMate de l’étude actuelle n’ait été réinjecté dans les modèles.
« Ces outils peuvent aider la communauté des chercheurs à mieux comprendre les forces et les faiblesses de ces modèles », a déclaré Collins. « Nous ne les utiliserions pas comme outils pour résoudre seuls des problèmes mathématiques complexes, mais ils peuvent être des assistants utiles si les utilisateurs savent comment en tirer parti. »
En savoir plus
- Le papier : Évaluation de modèles de langage pour les mathématiques par le biais d’interactions, Katherine M. Collins, Albert Q. Jiang, Simon Frieder, Lionel Wong, Miri Zilka, Umang Bhatt, Thomas Lukasiewicz, Yuhuai Wu, Joshua B. Tenenbaum, William Hart, Timothy Gowers, Wenda Li, Adrian Weller et Mateja Jamnik PNAS (2024)
- La plateforme d’évaluation : CheckMate
Université de Cambridge