Modèles ouverts d’IA connectant les LLM aux Data Commons de Google

Modèles ouverts d'IA connectant les LLM aux Data Commons de Google

Les grands modèles de langage (LLM) qui propulsent les innovations actuelles en intelligence artificielle deviennent de plus en plus sophistiqués. Ces modèles sont capables de parcourir de vastes quantités de texte, de générer des résumés, de proposer de nouvelles orientations créatives et même de rédiger du code. Cependant, malgré ces capacités impressionnantes, les LLM peuvent parfois fournir avec assurance des informations incorrectes. Ce phénomène, connu sous le nom d’« hallucination », représente un défi majeur dans le domaine de l’IA générative.

Aujourd’hui, nous sommes heureux de partager des avancées de recherche prometteuses qui s’attaquent directement à ce problème, en contribuant à réduire les hallucinations en ancrant les LLM dans des informations statistiques du monde réel. En parallèle de ces avancées, nous annonçons avec enthousiasme DataGemma, les premiers modèles ouverts conçus pour connecter les LLM à de nombreuses données réelles issues de Data Commons de Google.

Data Commons : un vaste référentiel de données accessibles au public et fiables

Data Commons est un graphe de connaissances accessible au public, contenant plus de 240 milliards de points de données riches sur des centaines de milliers de variables statistiques. Ces informations publiques proviennent d’organisations de confiance telles que les Nations Unies (ONU), l’Organisation mondiale de la santé (OMS), les Centres de contrôle et de prévention des maladies (CDC) et les bureaux de recensement. La combinaison de ces ensembles de données en un ensemble unifié d’outils et de modèles d’IA permet aux décideurs politiques, aux chercheurs et aux organisations de disposer d’informations précises.

Considérez Data Commons comme une vaste base de données en constante expansion, remplie d’informations publiques fiables sur un large éventail de sujets, allant de la santé et de l’économie à la démographie et à l’environnement. Vous pouvez interagir avec ces données en utilisant notre interface en langage naturel alimentée par l’IA. Par exemple, vous pouvez explorer quels pays d’Afrique ont connu la plus forte augmentation de l’accès à l’électricité, quelle est la corrélation entre le revenu et le diabète dans les comtés américains ou poser votre propre question curieuse de données.

Comment Data Commons peut aider à lutter contre les hallucinations

À mesure que l’adoption de l’IA générative augmente, nous visons à ancrer ces expériences en intégrant Data Commons dans Gemma, notre famille de modèles ouverts légers et de pointe, construits à partir de la même recherche et technologie utilisée pour créer les modèles Gemini. Ces modèles DataGemma sont désormais disponibles pour les chercheurs et développeurs dès maintenant.

DataGemma étendra les capacités des modèles Gemma en exploitant les connaissances de Data Commons pour améliorer la factualité et le raisonnement des LLM en utilisant deux approches distinctes :

1. RIG (génération de récupération-entrelacée) améliore les capacités de notre modèle linguistique, Gemma 2, en interrogeant de manière proactive des sources fiables et en vérifiant les faits par rapport aux informations contenues dans Data Commons. Lorsque DataGemma est sollicité pour générer une réponse, le modèle est programmé pour identifier les instances de données statistiques et récupérer la réponse depuis Data Commons. Bien que la méthodologie RIG ne soit pas nouvelle, son application spécifique dans le cadre de DataGemma est unique.

Source