Les systèmes d’intelligence artificielle (IA) sont de plus en plus utilisés dans des contextes de soins de santé où la sécurité est cruciale. Cependant, ces modèles peuvent parfois produire des informations incorrectes, faire des prédictions biaisées ou échouer de manière inattendue, ce qui peut avoir des conséquences graves pour les patients et les cliniciens.
Dans un article de commentaire publié aujourd’hui dans Nature Computational Science, Marzyeh Ghassemi, professeure agrégée au MIT, et Elaine Nsoesie, professeure agrégée à l’Université de Boston, affirment que pour atténuer ces risques potentiels, les systèmes d’IA devraient être accompagnés d’étiquettes d’utilisation responsable, similaires aux étiquettes imposées par la Food and Drug Administration (FDA) des États-Unis sur les médicaments sur ordonnance.
MIT News a discuté avec Ghassemi de la nécessité de telles étiquettes, des informations qu’elles devraient contenir et des moyens de mettre en œuvre ces procédures d’étiquetage.
Question : Pourquoi avons-nous besoin d’étiquettes d’utilisation responsable pour les systèmes d’IA dans les établissements de soins de santé ?
Réponse : Dans le domaine de la santé, nous rencontrons souvent des situations où les médecins utilisent des technologies ou des traitements qu’ils ne comprennent pas entièrement. Parfois, ce manque de compréhension est fondamental, comme le mécanisme derrière l’acétaminophène, et d’autres fois, il s’agit simplement d’une limite de spécialisation. Par exemple, nous ne nous attendons pas à ce que les cliniciens sachent comment entretenir un appareil IRM. Au lieu de cela, nous avons des systèmes de certification par la FDA ou d’autres agences fédérales qui approuvent l’utilisation d’un dispositif médical ou d’un médicament dans un contexte spécifique.
Il est important de noter que les dispositifs médicaux disposent également de contrats de service : un technicien du fabricant réparera votre appareil IRM s’il est mal calibré. Pour les médicaments approuvés, il existe des systèmes de surveillance et de déclaration après commercialisation pour traiter les effets ou événements indésirables, par exemple si un grand nombre de personnes prenant un médicament développent une maladie ou une allergie.
Les modèles et algorithmes, qu’ils intègrent ou non l’IA, échappent souvent à ces processus d’approbation et de surveillance à long terme, ce qui est préoccupant. De nombreuses études antérieures ont montré que les modèles prédictifs nécessitent une évaluation et un suivi plus rigoureux. En ce qui concerne l’IA générative plus récente, des travaux ont démontré que la génération n’est pas toujours appropriée, robuste ou impartiale. Parce que nous n’avons pas le même niveau de surveillance sur les prédictions ou la génération des modèles, il est encore plus difficile de détecter les réponses problématiques d’un modèle. Les modèles génératifs actuellement utilisés par les hôpitaux pourraient être biaisés. Avoir des étiquettes d’utilisation est un moyen de garantir que les modèles n’automatisent pas les préjugés appris des praticiens humains ou les scores d’aide à la décision clinique mal calibrés du passé.
Question : Votre article décrit plusieurs éléments d’une étiquette d’utilisation responsable de l’IA, suivant l’approche de la FDA pour la création d’étiquettes de prescription, y compris l’utilisation approuvée, les ingrédients, les effets secondaires potentiels, etc. Quelles informations de base ces étiquettes doivent-elles transmettre ?
Réponse : Les éléments qu’une étiquette doit rendre évidents sont l’heure, le lieu et la manière dont un modèle est destiné à être utilisé. Par exemple, l’utilisateur doit savoir que les modèles ont été formés à un moment précis avec des données provenant d’un moment précis. Inclut-il des données qui incluaient ou non la pandémie de Covid-19 ? Les pratiques sanitaires pendant la Covid ont pu impacter les données. C’est pourquoi nous plaidons pour que les « ingrédients » et les « études réalisées » du modèle soient divulgués.
Nous savons, grâce à des recherches antérieures, que les modèles formés dans un endroit ont tendance à avoir de moins bonnes performances lorsqu’ils sont déplacés vers un autre endroit. Savoir d’où proviennent les données et comment un modèle a été optimisé au sein de cette population peut aider à garantir que les utilisateurs sont conscients des « effets secondaires potentiels », des « avertissements et précautions » et des « réactions indésirables ».
Avec un modèle entraîné pour prédire un résultat, connaître l’heure et le lieu de la formation pourrait vous aider à porter un jugement intelligent sur le déploiement. Mais de nombreux modèles génératifs sont incroyablement flexibles et peuvent être utilisés pour de nombreuses tâches. Ici, le moment et le lieu peuvent ne pas être aussi informatifs, et des instructions plus explicites sur les « conditions d’étiquetage » et « l’utilisation approuvée » par rapport à « l’utilisation non approuvée » entrent en jeu. Si un développeur a évalué un modèle génératif pour lire les notes cliniques d’un patient et générer des codes de facturation potentiels, il peut révéler qu’il a tendance à surfacturer certaines conditions ou à en sous-estimer d’autres. Un utilisateur ne voudrait pas utiliser ce même modèle génératif pour décider qui sera référé à un spécialiste, même s’il le pouvait. Cette flexibilité est la raison pour laquelle nous préconisons des détails supplémentaires sur la manière dont les modèles doivent être utilisés.
En général, nous préconisons que vous formiez le meilleur modèle possible, en utilisant les outils à votre disposition. Mais même dans ce cas, il devrait y avoir beaucoup de divulgation. Aucun modèle ne sera parfait. En tant que société, nous comprenons désormais qu’aucune pilule n’est parfaite : il existe toujours un risque. Nous devrions avoir la même compréhension des modèles d’IA. Tout modèle – avec ou sans IA – est limité. Cela peut vous donner des prévisions réalistes et bien formées sur des futurs potentiels, mais prenez cela avec le grain de sel approprié.
Question : Si des labels IA devaient être mis en œuvre, qui effectuerait l’étiquetage et comment les labels seraient-ils réglementés et appliqués ?
Réponse : Si vous n’avez pas l’intention que votre modèle soit utilisé dans la pratique, les informations que vous feriez pour une publication de recherche de haute qualité sont suffisantes. Mais une fois que vous envisagez de déployer votre modèle dans un environnement humain, les développeurs et les déployeurs doivent procéder à un étiquetage initial, basé sur certains des cadres établis. Il devrait y avoir une validation de ces revendications avant le déploiement ; dans un environnement critique pour la sécurité comme les soins de santé, de nombreuses agences du ministère de la Santé et des Services sociaux pourraient être impliquées.
Pour les développeurs de modèles, savoir qu’il faudra étiqueter les limites d’un système induit un examen plus attentif du processus lui-même. Si je sais qu’à un moment donné je vais devoir divulguer la population sur laquelle un modèle a été formé, je ne voudrais pas révéler qu’il a été formé uniquement sur le dialogue d’utilisateurs masculins de chatbot, par exemple.
Réfléchir à des éléments tels que sur qui les données sont collectées, sur quelle période, quelle était la taille de l’échantillon et comment vous avez décidé quelles données inclure ou exclure, peut vous ouvrir l’esprit à des problèmes potentiels lors du déploiement.