Pour développer des modèles de langage avancés, les chercheurs s’appuient sur des vastes ensembles de données provenant de diverses sources Web. Cependant, lors de la combinaison et recombinaison de ces ensembles, des informations cruciales sur leurs origines et les restrictions d’utilisation peuvent être perdues ou confondues.
Cette perte d’information pose des problèmes juridiques et éthiques et peut également affecter les performances des modèles. Par exemple, un ensemble de données mal catégorisé peut entraîner l’utilisation de données inappropriées pour une tâche spécifique, compromettant ainsi l’efficacité du modèle. De plus, des données provenant de sources inconnues peuvent introduire des biais, entraînant des prédictions injustes.
Pour améliorer la transparence des données, une équipe de chercheurs du MIT et d’autres institutions a mené un audit systématique de plus de 1 800 ensembles de données textuelles sur des sites d’hébergement populaires. Ils ont découvert que plus de 70 % de ces ensembles de données manquaient d’informations sur les licences, et environ 50 % contenaient des erreurs.
En réponse, ils ont développé un outil convivial appelé Explorateur de provenance des données, qui génère automatiquement des résumés des créateurs, des sources, des licences et des utilisations autorisées d’un ensemble de données.
« Ces outils peuvent aider les régulateurs et les praticiens à prendre des décisions éclairées concernant le déploiement de l’IA et à promouvoir un développement responsable de l’IA », déclare Alex « Sandy » Pentland, professeur au MIT et co-auteur d’un article sur le projet.
L’explorateur de provenance des données pourrait aider les praticiens de l’IA à créer des modèles plus efficaces en leur permettant de choisir des ensembles de données de formation adaptés à leur objectif. À long terme, cela pourrait améliorer la précision des modèles d’IA dans des applications réelles, comme l’évaluation des demandes de prêt ou la réponse aux requêtes des clients.
« Comprendre les données de formation d’un modèle est crucial pour comprendre ses capacités et ses limites. Une mauvaise attribution des données pose un sérieux problème de transparence », explique Robert Mahari, étudiant diplômé du MIT et co-auteur principal de l’article.
Mahari et Pentland ont été rejoints par Shayne Longpre, Sara Hooker, et d’autres chercheurs de diverses institutions. Leur recherche est publiée dans Nature Machine Intelligence.
Focus sur le réglage fin
Les chercheurs utilisent souvent le réglage fin pour améliorer les capacités d’un modèle de langage pour une tâche spécifique. Ils créent des ensembles de données sélectionnés pour optimiser les performances du modèle pour cette tâche unique.
Les chercheurs du MIT se sont concentrés sur ces ensembles de données de réglage fin, souvent développés par des chercheurs ou des entreprises et soumis à des licences spécifiques. Cependant, lorsque ces ensembles sont regroupés dans des collections plus vastes, les informations de licence originales sont souvent omises.
« Ces licences sont importantes et doivent être respectées », déclare Mahari. Par exemple, des conditions de licence incorrectes ou manquantes peuvent entraîner des problèmes juridiques coûteux.
« Les gens peuvent finir par former des modèles sans comprendre pleinement leurs capacités ou les risques associés, qui découlent des données », ajoute Longpre.
Pour cette étude, les chercheurs ont défini la provenance des données comme la combinaison de l’héritage d’approvisionnement, de création et de licence d’un ensemble de données. Ils ont développé une procédure d’audit structurée pour retracer la provenance des données de plus de 1 800 ensembles de données textuelles.
Après avoir constaté que plus de 70 % des ensembles de données avaient des licences « non spécifiées », les chercheurs ont travaillé pour combler les lacunes, réduisant ce nombre à environ 30 %.
Ils ont également découvert que les licences appropriées étaient souvent plus restrictives que celles attribuées par les référentiels. De plus, la majorité des créateurs d’ensembles de données étaient concentrés dans les pays du Nord, ce qui pourrait limiter les capacités d’un modèle pour des déploiements dans d’autres régions.
Les chercheurs ont également noté une augmentation des restrictions sur les ensembles de données créés en 2023 et 2024, probablement en raison des préoccupations des universitaires concernant l’utilisation commerciale de leurs données.
Un outil convivial
Pour faciliter l’accès à ces informations sans audit manuel, les chercheurs ont créé le Data Provenance Explorer. Cet outil permet de trier et filtrer les ensembles de données selon certains critères et de télécharger une carte de provenance des données offrant un aperçu structuré des caractéristiques des ensembles de données.
« Nous espérons que cet outil aidera les gens à faire des choix plus éclairés sur les données qu’ils utilisent », déclare Mahari.
À l’avenir, les chercheurs souhaitent étendre leur analyse à la provenance des données multimodales, y compris la vidéo et l’audio. Ils souhaitent également examiner comment les conditions d’utilisation des sites Web se retrouvent dans les ensembles de données.
Ils contactent également les régulateurs pour discuter de leurs conclusions et des implications juridiques de l’ajustement précis des données.
« Nous avons besoin de transparence dès le départ pour permettre à d’autres d’obtenir facilement ces informations », explique Longpre.
« De nombreuses interventions politiques supposent que nous pouvons correctement attribuer et identifier les licences des données, et ce travail montre que ce n’est pas toujours le cas, tout en améliorant considérablement les informations de provenance disponibles », déclare Stella Biderman, directrice exécutive d’EleutherAI, qui n’a pas participé à ce travail. « Cela est très précieux pour les praticiens de l’apprentissage automatique en dehors des grandes entreprises disposant d’équipes juridiques dédiées. »