Sarah Masud est doctorante de cinquième année au Laboratoire des systèmes sociaux computationnels (LCS2) de l’Institut Indraprastha de technologie de l’information de Delhi (IIIT-D). Ses recherches analysent la diffusion des contenus haineux sur le Web.
Elle est titulaire de la prestigieuse bourse de doctorat Google (2023-présent) et a déjà reçu la bourse de doctorat du Premier ministre (2020-2023). Dans le cadre de son doctorat, elle est l’auteur de publications dans des lieux de premier plan, traitant de l’analyse des contenus haineux sur les forums en ligne.
Elle siège au comité des membres AI d’AnitaB.org et est réviseure du Journal of Open Source Software. Avant ses études universitaires, Sarah a travaillé comme data scientist dans les outils de développement chez Red Hat, Bangalore, pendant 2,5 ans.
Comment avez-vous découvert la science des données et qu’est-ce qui vous a inspiré à poursuivre cette carrière ?
Permettez-moi de lancer cette conversation avec ma version de la citation d’Animal Farm : « Tous les points de données sont importants, mais certains le sont plus que d’autres. »
Même si je ne me souviens pas de la chaîne exacte des événements, je me souviens que lorsque j’étais dans mon programme de premier cycle, je me suis essayé à divers projets. Plusieurs tentatives infructueuses plus tard, je suis tombé sur la science des données. J’ai assisté à quelques conférences et séminaires où les intervenants ont discuté des applications de la science des données pour leur travail. Après avoir lu des articles sur la science des données, j’ai pensé que la nature appliquée du travail, combinée à mon amour pour la réalisation d’expériences approfondies, l’analyse statistique et la narration, méritait d’être explorée davantage. Étant un lecteur assidu et toujours fasciné par le jeu des mots, j’ai été naturellement attiré par les applications de la science des données dans le traitement du langage naturel (NLP) et finalement par l’informatique sociale. Heureusement, depuis mes études de premier cycle jusqu’à aujourd’hui, tous mes projets ont encore accru ma fascination pour le domaine.
Comment s’est passée votre transition de l’industrie vers le monde universitaire ? Qu’est-ce qui vous intéresse entre les deux et pourquoi êtes-vous resté dans le monde universitaire ?
J’ai toujours su que je voulais étudier davantage après mes études de premier cycle et que je voulais m’engager dans des rôles davantage axés sur la recherche. Après 2,5 ans de travail dans l’industrie, j’ai pris la difficile décision d’arrêter. Il m’a fallu les mois suivants pour me concentrer sur la création de ma candidature aux programmes de maîtrise. Au départ, je ne me voyais pas poursuivre un doctorat, mais cela a changé après avoir passé six mois en tant qu’assistant de recherche au Laboratoire des systèmes sociaux informatiques (LCS2) de l’Institut de technologie Indraprastha de New Delhi (IIIT-D). Cela m’a fait réaliser à quel point j’appréciais la rigueur de la recherche. Les antécédents du LCS2 en matière de publication de recherches de haut niveau et d’infrastructure de recherche IIIT-D ont permis une transition transparente vers un programme de doctorat à temps plein.
Pendant ce temps, à peu près à la même époque, début 2020, lors des manifestations contre la Citizenship Amendment Act en Inde, en tant que femme musulmane, j’ai été témoin de la façon dont les voix des minorités étaient déformées et marginalisées sur les plateformes de médias sociaux. Au cours de cette période tumultueuse, j’ai saisi l’opportunité de me lancer dans un projet de doctorat axé sur les discours de haine en ligne afin de contribuer aux efforts de justice sociale à travers le prisme de l’informatique. Compte tenu de la nature subjective de la tâche sur laquelle je travaillais et du manque de recherche sur le contexte indien des discours de haine, la collecte et l’annotation manuelle des ensembles de données ont demandé beaucoup de travail. Il y a eu des phases de faible productivité pendant la COVID-19, où il semblait impossible de continuer à travailler pour obtenir ce diplôme. Le soutien de mes pairs et de mes mentors m’a aidé à respecter les délais et mes efforts ont porté leurs fruits en termes de publications. Cependant, il nous a fallu près de deux ans pour publier nos travaux sur la conservation et la modélisation à grande échelle de la haine dans le contexte indien.
Travailler sur des projets de science des données dans l’industrie ou dans le milieu universitaire est un processus d’essais et d’erreurs visant à combler le fossé entre les questions de recherche et l’impact de la recherche. Dans l’industrie, les résultats sont plus clairement définis et la boucle de rétroaction est plus rapide, mais il n’en va pas de même dans le monde universitaire. De plus, la disparité des structures salariales entre l’industrie et le monde universitaire peut mettre à rude épreuve financièrement la capacité d’une personne à s’engager pleinement dans le processus de recherche.
Qu’est-ce que l’informatique sociale et qu’est-ce qui est unique dans le travail dans ce domaine de recherche ?
Comme son nom l’indique, l’informatique sociale utilise des outils et des cadres informatiques pour quantifier différents aspects des engagements sociaux entre humains dans l’espace numérique et physique. Il s’applique à tous les domaines nécessitant des interactions humain-humain et s’oriente désormais vers les interactions humain-IA.
L’informatique sociale est un domaine interdisciplinaire dont les cadres s’appuient sur des techniques de ML et des concepts de sciences sociales.
L’aspect unique du travail avec des projets d’informatique sociale est le manque de mesures standard et de résultats généralisables. Bien que certaines techniques standards puissent être appliquées au backbone, chaque question de recherche nécessite un examen de différents aspects du comportement humain et de l’infrastructure numérique qui doivent être pris en compte au cas par cas.
De plus, contrairement à d’autres applications de ML, l’informatique sociale ne consiste pas à établir le prochain SOTA, mais plutôt à découvrir des nuances sociales uniques ou à établir des liens entre des modèles du monde numérique et physique.
Quelles étapes ou tournants clés ont façonné votre cheminement de carrière ?
Trois événements/tournants ont principalement défini la personne que je suis aujourd’hui :
- Rejoindre le programme de baccalauréat en ingénierie à Jamia Millia Islamia. Cela m’a permis de découvrir la filière informatique qui me plaisait le plus et m’a fait découvrir le monde de l’open source.
- Rejoindre Red Hat à temps plein après avoir obtenu mon diplôme de premier cycle. Il a fourni un environnement inclusif et curieux pour perfectionner mes compétences en science des données et renforcer mon sens technique dans la création et le développement de systèmes ML de bout en bout.
- Rejoindre le programme de doctorat au LCS2, IIIT-Delhi. Les cinq dernières années de mon doctorat ont été des montagnes russes, mais elles m’ont permis de développer mes compétences techniques, de communication et de pensée critique.
Ces événements critiques m’ont aidé à renforcer ma ténacité pour affronter de front de nouveaux défis. Être associé à ces organisations m’a également permis de développer une compréhension plus nuancée du paysage techno-social et a contribué à améliorer ma vision du monde et ma pensée indépendante tout en propulsant ma carrière dans la bonne direction avec juste l’élan dont j’avais alors besoin.
Si vous pouviez remonter le temps, y a-t-il quelque chose que vous feriez différemment dans votre carrière ?
Il est difficile d’identifier un événement ou une action spécifique puisque je suis là où je suis aujourd’hui à la suite de tout ce qui s’est produit au cours de ma carrière. Je pense que je passerais plus de temps à bricoler des outils, des techniques et du matériel et j’aurais moins peur de savoir si cela ajoute ou non immédiatement à mon profil.
Nous remercions Sarah pour cette interview ! Vous pouvez rester en contact avec elle et son travail sympa ci-dessous.