Les grands modèles linguistiques sont utilisés pour diverses tâches, allant de la traduction d’articles à la détection de fraudes financières. Cependant, malgré leurs capacités impressionnantes, ils produisent parfois des réponses incorrectes.
En outre, ces modèles peuvent être excessivement confiants dans leurs réponses erronées ou insuffisamment confiants dans leurs réponses correctes, rendant difficile pour les utilisateurs de juger de leur fiabilité.
Les chercheurs calibrent généralement les modèles d’apprentissage automatique pour que leur niveau de confiance corresponde à leur précision. Un modèle bien calibré devrait avoir moins confiance en une prédiction incorrecte et plus confiance en une prédiction correcte. Cependant, les méthodes de calibrage traditionnelles ne sont pas efficaces pour les grands modèles de langage (LLM) qui peuvent être appliqués à une multitude de tâches.
Des chercheurs du MIT et du MIT-IBM Watson AI Lab ont récemment introduit une nouvelle méthode de calibrage adaptée aux grands modèles de langage, appelée Thermomètre. Cette méthode consiste à créer un modèle auxiliaire plus petit qui fonctionne en tandem avec un grand modèle de langage pour le calibrer.
Le Thermomètre est plus efficace que les approches traditionnelles, nécessitant moins de calculs énergivores tout en maintenant la précision du modèle et en produisant des réponses mieux calibrées pour des tâches inédites.
En permettant un calibrage efficace d’un LLM pour diverses tâches, Thermomètre pourrait aider les utilisateurs à identifier les situations où un modèle est trop confiant dans ses fausses prédictions, évitant ainsi son déploiement dans des contextes où il pourrait échouer.
« Avec Thermomètre, nous voulons fournir à l’utilisateur un signal clair indiquant si la réponse d’un modèle est exacte ou inexacte, en reflétant l’incertitude du modèle, afin qu’il sache s’il peut lui faire confiance », explique Maohao Shen, étudiant diplômé en génie électrique et informatique (EECS) et auteur principal d’un article sur le Thermomètre.
Shen a collaboré avec Gregory Wornell, professeur d’ingénierie Sumitomo et directeur du laboratoire de signaux, d’informations et d’algorithmes du laboratoire de recherche en électronique, ainsi que membre du MIT-IBM Watson AI Lab ; l’auteur principal Soumya Ghosh, chercheur au MIT-IBM Watson AI Lab ; et d’autres chercheurs du MIT et du MIT-IBM Watson AI Lab. La recherche a été présentée à la Conférence internationale sur l’apprentissage automatique.
Calibrage universel
Les modèles d’apprentissage automatique traditionnels sont généralement conçus pour une seule tâche, et leur calibrage implique souvent une méthode spécifique à cette tâche. En revanche, les LLM, qui peuvent effectuer de nombreuses tâches, nécessitent une méthode de calibrage universelle.
Le calibrage d’un LLM implique souvent d’échantillonner le modèle plusieurs fois pour obtenir différentes prédictions, puis de regrouper ces prédictions pour obtenir une confiance mieux calibrée. Cependant, étant donné que ces modèles comportent des milliards de paramètres, les coûts de calcul augmentent rapidement.
« Dans un sens, les grands modèles de langage sont universels car ils peuvent gérer diverses tâches. Nous avons donc besoin d’une méthode d’étalonnage universelle capable de gérer de nombreuses tâches différentes », explique Shen.
Avec Thermomètre, les chercheurs ont développé une technique polyvalente qui utilise une méthode d’étalonnage classique appelée mise à l’échelle de la température pour calibrer efficacement un LLM pour une nouvelle tâche.
Dans ce contexte, une « température » est un paramètre d’échelle utilisé pour ajuster la confiance d’un modèle afin de l’aligner sur la précision de ses prévisions. Traditionnellement, on détermine la bonne température à l’aide d’un ensemble de données de validation étiquetées d’exemples spécifiques à une tâche.
Étant donné que les LLM sont souvent appliqués à de nouvelles tâches, les ensembles de données étiquetés peuvent être difficiles à obtenir. Par exemple, un utilisateur souhaitant déployer un LLM pour répondre aux questions des clients sur un nouveau produit ne dispose probablement pas d’un ensemble de données contenant de telles questions et réponses.
Au lieu d’utiliser un ensemble de données étiqueté, les chercheurs entraînent un modèle auxiliaire qui s’exécute sur un LLM pour prédire automatiquement la température nécessaire pour le calibrer pour cette nouvelle tâche.
Ils utilisent des ensembles de données étiquetés de quelques tâches représentatives pour entraîner le modèle Thermomètre, mais une fois formé, il peut se généraliser à de nouvelles tâches dans une catégorie similaire sans avoir besoin de données étiquetées supplémentaires.
Un modèle de Thermomètre formé sur une collection d’ensembles de données de questions à choix multiples, comme des questions d’algèbre et des questions médicales, pourrait être utilisé pour calibrer un LLM répondant à des questions sur la géométrie ou la biologie, par exemple.
« L’objectif ambitieux est qu’il puisse fonctionner sur n’importe quelle tâche, mais nous n’en sommes pas encore là », déclare Ghosh.
Le modèle Thermomètre n’a besoin que d’accéder à une petite partie du fonctionnement interne du LLM pour prédire la bonne température qui calibrera sa prédiction pour les points de données d’une tâche spécifique.
Une approche efficace
Il est important de noter que la technique ne nécessite pas plusieurs entraînements et ne ralentit que légèrement le LLM. De plus, puisque l’échelle de température ne modifie pas les prédictions d’un modèle, le Thermomètre préserve sa précision.
Lorsqu’ils ont comparé le Thermomètre à plusieurs références sur diverses tâches, il a systématiquement produit des mesures d’incertitude mieux calibrées tout en nécessitant beaucoup moins de calculs.
« Tant que nous formons un modèle Thermomètre sur un nombre suffisamment grand de tâches, il devrait pouvoir se généraliser à toute nouvelle tâche, tout comme un grand modèle de langage, c’est aussi un modèle universel », ajoute Shen.
Les chercheurs ont également découvert que s’ils formaient un modèle de Thermomètre pour un LLM plus petit, il pouvait être directement appliqué pour calibrer un LLM plus grand au sein de la même famille.
À l’avenir, ils souhaitent adapter Thermomètre à des tâches de génération de texte plus complexes et appliquer la technique à des LLM encore plus volumineux. Les chercheurs espèrent également quantifier la diversité et le nombre d’ensembles de données étiquetés nécessaires pour former un modèle de Thermomètre afin qu’il puisse se généraliser à une nouvelle tâche.
Cette recherche a été financée, en partie, par le MIT-IBM Watson AI Lab.