Avec les avancées récentes en imagerie, génomique et autres technologies, les sciences de la vie sont inondées de données. Par exemple, un biologiste étudiant des cellules prélevées dans le tissu cérébral de patients atteints de la maladie d’Alzheimer peut vouloir examiner diverses caractéristiques : le type de cellule, les gènes qu’elle exprime, son emplacement dans le tissu, et plus encore. Bien que les cellules puissent maintenant être étudiées expérimentalement avec plusieurs types de mesures simultanément, l’analyse des données reste souvent limitée à un seul type de mesure à la fois.
Travailler avec des données « multimodales » nécessite de nouveaux outils informatiques, et c’est là qu’intervient Xinyi Zhang.
Étudiante en quatrième année de doctorat au MIT, Zhang combine apprentissage automatique et biologie pour comprendre les principes biologiques fondamentaux, en particulier dans les domaines où les méthodes conventionnelles atteignent leurs limites. Travaillant dans le laboratoire du professeur Caroline Uhler au Département de génie électrique et d’informatique et à l’Institut des données, des systèmes et de la société du MIT, et en collaboration avec des chercheurs du Centre Eric et Wendy Schmidt du Broad Institute et d’autres institutions, Zhang a dirigé plusieurs efforts pour développer des cadres et des principes informatiques permettant de comprendre les mécanismes de régulation des cellules.
« Tous ces efforts ne sont que de petits pas vers l’objectif final : comprendre comment fonctionnent les cellules, les tissus et les organes, pourquoi ils souffrent de maladies et pourquoi ils peuvent parfois être guéris et parfois non », explique Zhang.
Les activités de Zhang pendant son temps libre sont tout aussi ambitieuses. Sa liste de passe-temps à l’Institut comprend la voile, le ski, le patinage sur glace, l’escalade, jouer avec la chorale de concert du MIT et piloter des avions monomoteurs. (Elle a obtenu sa licence de pilote en novembre 2022.)
« Je suppose que j’aime aller dans des endroits où je ne suis jamais allée et faire des choses que je n’ai jamais faites auparavant », dit-elle avec un euphémisme caractéristique.
Uhler, son conseiller, affirme que l’humilité tranquille de Zhang réserve une surprise « à chaque conversation ».
« À chaque fois, vous apprenez quelque chose comme : ‘D’accord, alors maintenant elle apprend à voler' », explique Uhler. « C’est tout simplement incroyable. Tout ce qu’elle fait, elle le fait pour les bonnes raisons. Elle veut exceller dans les choses qui lui tiennent à cœur, ce qui, je pense, est vraiment excitant. »
Zhang s’est d’abord intéressée à la biologie au lycée à Hangzhou, en Chine. Elle appréciait que ses professeurs ne puissent pas répondre à ses questions en cours de biologie, ce qui l’a amenée à considérer cela comme le sujet « le plus intéressant » à étudier.
Son intérêt pour la biologie s’est finalement transformé en un intérêt pour la bio-ingénierie. Après que ses parents, professeurs au collège, lui aient suggéré d’étudier aux États-Unis, elle s’est spécialisée dans ce domaine, parallèlement au génie électrique et à l’informatique, en tant qu’étudiante de premier cycle à l’Université de Californie à Berkeley.
Zhang était prête à se lancer directement dans le programme de doctorat EECS du MIT après avoir obtenu son diplôme en 2020, mais la pandémie de Covid-19 a retardé sa première année. Malgré cela, en décembre 2022, elle, Uhler et deux autres co-auteurs ont publié un article dans Nature Communications.
Les bases de l’article ont été posées par Xiao Wang, l’un des co-auteurs. Elle avait auparavant travaillé au Broad Institute pour développer une forme d’analyse cellulaire spatiale combinant plusieurs formes d’imagerie cellulaire et d’expression génétique pour la même cellule tout en cartographiant la place de la cellule dans l’échantillon de tissu dont elle provenait – une innovation sans précédent.
Cette innovation avait de nombreuses applications potentielles, notamment la création de nouveaux moyens de suivre la progression de diverses maladies, mais il n’existait aucun moyen d’analyser toutes les données multimodales produites par la méthode. C’est là que Zhang est intervenue, intéressée par la conception d’une méthode de calcul capable de le faire.
L’équipe s’est concentrée sur la coloration de la chromatine comme méthode d’imagerie de choix, qui est relativement bon marché mais révèle néanmoins de nombreuses informations sur les cellules. L’étape suivante consistait à intégrer les techniques d’analyse spatiale développées par Wang et, pour ce faire, Zhang a commencé à concevoir un auto-encodeur.
Les auto-encodeurs sont un type de réseau neuronal qui code et réduit généralement de grandes quantités de données de grande dimension, puis étend les données transformées à leur taille d’origine. Dans ce cas, l’auto-encodeur de Zhang a fait l’inverse, prenant les données d’entrée et les rendant de plus grande dimension. Cela leur a permis de combiner les données de différents animaux et de supprimer les variations techniques qui n’étaient pas dues à des différences biologiques significatives.
Dans l’article, ils ont utilisé cette technologie, abrégée en STACI, pour identifier comment les cellules et les tissus révèlent la progression de la maladie d’Alzheimer lorsqu’ils sont observés sous un certain nombre de techniques spatiales et d’imagerie. Le modèle peut également être utilisé pour analyser un certain nombre de maladies, explique Zhang.
Avec un temps et des ressources illimités, son rêve serait de construire un modèle entièrement complet de la vie humaine. Malheureusement, le temps et les ressources sont limités. Cependant, son ambition reste intacte et elle dit qu’elle veut continuer à appliquer ses compétences pour résoudre les « questions les plus difficiles auxquelles nous n’avons pas encore les outils pour répondre ».
Elle travaille actuellement à la conclusion de quelques projets, l’un axé sur l’étude de la neurodégénérescence en analysant l’imagerie du cortex frontal et un autre sur la prédiction des images protéiques à partir de séquences protéiques et de l’imagerie de la chromatine.
« Il y a encore beaucoup de questions sans réponse », dit-elle. « Je veux choisir des questions biologiquement significatives, qui nous aident à comprendre des choses que nous ne savions pas auparavant. »