Par Libusha Kelly, Collège de médecine Albert Einstein
Les virus sont une force mystérieuse et souvent mal comprise dans les écosystèmes microbiens. Les chercheurs savent qu’ils peuvent infecter, tuer et manipuler des cellules humaines et bactériennes dans presque tous les environnements, des océans à nos intestins. Cependant, la compréhension complète de leur impact reste difficile en raison de leur diversité extraordinaire et de leur capacité à évoluer rapidement.
Les communautés microbiennes sont difficiles à étudier en laboratoire. De nombreux microbes sont difficiles à cultiver, et leur environnement naturel a été modifié, influençant leur succès ou leur échec de manière que les scientifiques ne peuvent pas reproduire en laboratoire.
Pour contourner ces défis, les biologistes des systèmes, comme moi, séquencent souvent tout l’ADN présent dans un échantillon – par exemple, un échantillon fécal d’un patient – pour séparer les séquences d’ADN viral et annoter les sections du génome viral qui codent pour les protéines. Ces annotations aident les chercheurs à comprendre les fonctions des virus dans l’environnement et à identifier différents types de virus. Les chercheurs utilisent des bases de données publiques de séquences génétiques virales pour annoter les virus en faisant correspondre les séquences virales d’un échantillon aux séquences précédemment annotées.
Cependant, les scientifiques identifient des séquences virales à un rythme qui dépasse de loin notre capacité à annoter ces gènes. Cela signifie que les chercheurs publient leurs résultats sur les virus dans les écosystèmes microbiens en utilisant des fractions inacceptablement petites des données disponibles.
Pour améliorer la capacité des chercheurs à étudier les virus partout dans le monde, mon équipe et moi avons développé une nouvelle approche pour annoter des séquences virales grâce à l’intelligence artificielle. Grâce à des modèles de langage protéique semblables à de grands modèles de langage comme ChatGPT mais spécifiques aux protéines, nous avons pu classer des séquences virales inédites. Cela ouvre la porte aux chercheurs non seulement pour en apprendre davantage sur les virus, mais également pour aborder des questions biologiques auxquelles il est difficile de répondre avec les techniques actuelles.
Annoter des virus avec l’IA
Les grands modèles de langage utilisent les relations entre les mots dans de grands ensembles de données de texte pour fournir des réponses potentielles à des questions auxquelles on ne leur a pas explicitement « enseigné » la réponse. Par exemple, lorsque vous demandez à un chatbot « Quelle est la capitale de la France ? », le modèle utilise sa formation sur d’énormes ensembles de données de documents et d’informations pour déduire la réponse : « La capitale de la France est Paris ».
De la même manière, les modèles de langage protéique sont des algorithmes d’IA formés pour reconnaître les relations entre des milliards de séquences protéiques provenant d’environnements du monde entier. Grâce à cette formation, ils peuvent peut-être déduire quelque chose sur l’essence des protéines virales et leurs fonctions.
Nous nous sommes demandé si les modèles de langage protéique pouvaient répondre à cette question : « Compte tenu de toutes les séquences génétiques virales annotées, quelle est la fonction de cette nouvelle séquence ? »
Dans notre preuve de concept, nous avons formé des réseaux neuronaux sur des séquences de protéines virales précédemment annotées dans des modèles de langage protéique pré-entraînés, puis nous les avons utilisés pour prédire l’annotation de nouvelles séquences de protéines virales. Notre approche nous permet de sonder ce que le modèle « voit » dans une séquence virale particulière qui conduit à une annotation particulière. Cela permet d’identifier les protéines candidates d’intérêt en fonction de leurs fonctions spécifiques ou de la manière dont leur génome est organisé, en parcourant ainsi l’espace de recherche de vastes ensembles de données.
En identifiant des fonctions de gènes viraux plus éloignées, les modèles de langage protéique peuvent compléter les méthodes actuelles pour fournir de nouvelles informations sur la microbiologie. Par exemple, mon équipe et moi avons pu utiliser notre modèle pour découvrir une intégrase jusqu’alors non reconnue – un type de protéine qui peut déplacer l’information génétique dans et hors des cellules – dans les picocyanobactéries marines abondantes à l’échelle mondiale Prochlorocoque et Synéchocoque. Notamment, cette intégrase pourrait être capable de déplacer des gènes vers et hors de ces populations de bactéries dans les océans et permettre à ces microbes de mieux s’adapter aux environnements changeants.
Notre modèle linguistique a également identifié une nouvelle protéine de capside virale qui est répandue dans les océans du monde. Nous avons produit la première image de la façon dont ses gènes sont disposés, montrant qu’il peut contenir différents ensembles de gènes qui, selon nous, indiquent que ce virus remplit différentes fonctions dans son environnement.
Ces résultats préliminaires ne représentent que deux des milliers d’annotations fournies par notre approche.
Analyser l’inconnu
La plupart des centaines de milliers de virus récemment découverts restent non classés. De nombreuses séquences génétiques virales correspondent à des familles de protéines sans fonction connue ou n’ayant jamais été observées auparavant. Nos travaux montrent que des modèles de langage protéique similaires pourraient aider à étudier la menace et la promesse des nombreux virus non caractérisés de notre planète.
Alors que notre étude s’est concentrée sur les virus présents dans les océans du monde, une meilleure annotation des protéines virales est essentielle pour mieux comprendre le rôle que jouent les virus dans la santé et les maladies du corps humain. Nous et d’autres chercheurs avons émis l’hypothèse que l’activité virale dans le microbiome intestinal humain pourrait être modifiée quand vous êtes malade. Cela signifie que les virus peuvent aider à identifier le stress dans les communautés microbiennes.
Cependant, notre approche est également limitée car elle nécessite des annotations de haute qualité. Les chercheurs développent de nouveaux modèles de langage protéique qui intègrent d’autres « tâches » dans le cadre de leur formation, notamment la prédiction des structures protéiques afin de détecter des protéines similaires, afin de les rendre plus puissantes.
Rendre tous les outils d’IA disponibles via les principes de données FAIR – des données trouvables, accessibles, interopérables et réutilisables – peut aider les chercheurs dans leur ensemble à réaliser le potentiel de ces nouvelles façons d’annoter les séquences protéiques, conduisant à des découvertes bénéfiques pour la santé humaine.
Libusha Kelly est professeur agrégé de biologie des systèmes et computationnelle, de microbiologie et d’immunologie, Collège de médecine Albert Einstein
Cet article est republié à partir de The Conversation sous licence Creative Commons. Lisez l’article original.
The Conversation est une source indépendante d’informations et d’opinions, provenant de la communauté universitaire et de la recherche et diffusée directement au public.