3 questions : Catherine D’Ignazio sur la science des données et la quête de justice | Actualités du MIT

3 questions : Catherine D'Ignazio sur la science des données et la quête de justice |  Actualités du MIT

Lorsque nous appliquons la science des données à la société, il est crucial de se rappeler que nos données peuvent être imparfaites, biaisées ou incomplètes. C’est l’un des thèmes centraux du nouveau livre de Catherine D’Ignazio, professeure agrégée au MIT, intitulé « Counting Feminicide », publié ce printemps par MIT Press. Dans cet ouvrage, D’Ignazio explore le travail des militants latino-américains qui ont commencé à utiliser les comptes rendus des médias et d’autres sources pour dresser un tableau du nombre de femmes tuées dans leur pays en raison de violences basées sur le genre. Ils ont découvert que leurs propres chiffres différaient considérablement des statistiques officielles.

Certains de ces militants sont devenus des figures publiques de premier plan, tandis que d’autres sont restés moins connus. Cependant, tous ont contribué de manière significative à la collecte, au partage et à l’application des données pour soutenir la liberté et la dignité humaines. Grâce à D’Ignazio, professeure agrégée de sciences urbaines et de planification au Département d’études et de planification urbaines du MIT et directrice du laboratoire de données et de féminisme du MIT, leurs histoires atteignent désormais un nouveau public. Elle organise également une conférence transnationale en cours, Club de lecture, sur ce sujet. MIT News s’est entretenu avec D’Ignazio à propos de son nouveau livre et de la manière dont les militants élargissent la pratique traditionnelle de la science des données.

Question : De quoi parle votre livre ?

Réponse : Trois choses. Premièrement, c’est un livre qui documente la montée de l’activisme des données en tant que forme fascinante de science des données citoyenne. Avec la disponibilité croissante des données et des outils, la collecte et l’analyse de données deviennent une forme importante d’activisme social. Nous la caractérisons dans le livre comme une pratique citoyenne. Les gens utilisent les données pour faire valoir leurs connaissances et formuler des demandes politiques auxquelles leurs institutions doivent répondre.

Deuxièmement, en observant les militants des données, ils abordent la science des données de manière très différente de la façon dont elle est habituellement enseignée. Lorsqu’on travaille sur les inégalités et la violence, il existe un lien avec les lignes de données. Il s’agit de rendre hommage aux personnes disparues. Les data scientists traditionnels peuvent en tirer beaucoup d’enseignements.

Troisièmement, le livre traite du féminicide lui-même et du manque d’informations. La principale raison pour laquelle les gens commencent à collecter des données sur le féminicide est que leurs institutions ne le font pas. Cela inclut nos institutions ici aux États-Unis. Nous parlons d’une violence contre les femmes que l’État néglige de comptabiliser, de classer ou d’agir. Ainsi, les militants comblent ces lacunes et le font au mieux de leurs capacités, et ils ont été très efficaces. Les médias se tournent vers les militantes, qui finissent par devenir des autorités en matière de féminicide.

Question : Pouvez-vous nous expliquer les différences entre les pratiques de ces data activists et la science des données plus standard ?

Réponse : Une différence réside dans ce que j’appellerai l’intimité et la proximité des lignes de l’ensemble de données. Dans la science des données conventionnelle, lorsque vous analysez des données, vous n’êtes généralement pas également le collecteur de données. Cependant, ces militants et groupes sont impliqués tout au long du pipeline. En conséquence, il existe une connexion et une humanisation à chaque ligne de l’ensemble de données. Par exemple, il y a une infirmière scolaire au Texas qui dirige le site Women Count USA, et elle passe de nombreuses heures à essayer de trouver des photographies de victimes de féminicide, ce qui représente un soin inhabituel apporté à chaque ligne d’un ensemble de données.

Un autre point est la sophistication dont disposent les activistes des données quant à ce que représentent leurs données et quels sont les biais dans les données. Dans les domaines traditionnels de l’IA et de la science des données, nous avons encore des conversations dans lesquelles les gens semblent surpris par l’existence de biais dans les ensembles de données. Mais j’ai été impressionnée par la sophistication critique avec laquelle les activistes ont abordé leurs données. Ils recueillent des informations auprès des médias et connaissent les préjugés des médias, et sont conscients que leurs données ne sont pas exhaustives mais restent utiles. Nous pouvons maintenir ces deux choses ensemble. Il s’agit souvent de données plus complètes que celles que les institutions elles-mêmes possèdent ou divulguent au public.

Question : Vous n’avez pas seulement fait la chronique du travail des militants, mais vous avez également collaboré avec eux et en avez parlé dans le livre. Sur quoi avez-vous travaillé avec eux ?

Réponse : Un élément important du livre est le développement technologique participatif dans lequel nous nous sommes engagés avec les militants, et un chapitre est une étude de cas de notre travail avec des militants pour co-concevoir une technologie d’apprentissage automatique et d’IA qui soutient leur travail. Notre équipe réfléchissait à un système pour les militants qui trouverait automatiquement les cas, les vérifierait et les placerait directement dans la base de données. Il est intéressant de noter que les militants se sont opposés à cette idée. Ils ne voulaient pas d’une automatisation complète. Ils estimaient en effet qu’être témoins constituait une partie importante du travail. La charge émotionnelle est une partie importante du travail et elle est également au cœur de celui-ci. Ce n’est pas quelque chose que je m’attendrais toujours à entendre de la part des data scientists.

Tenir l’humain au courant signifie également que l’humain prend la décision finale quant à savoir si un élément spécifique constitue ou non un féminicide. Le traiter ainsi s’aligne sur le fait qu’il existe plusieurs définitions du féminicide, ce qui est une chose compliquée d’un point de vue informatique. La prolifération des définitions de ce qui constitue un féminicide reflète le fait qu’il s’agit d’un débat mondial et transnational en cours. Le féminicide a été codifié dans de nombreuses lois, notamment dans les pays d’Amérique latine, mais aucune de ces lois n’est définitive. Et aucune définition militante n’est définitive. Les gens créent cela ensemble, par le dialogue et la lutte, donc tout système informatique doit être conçu en gardant à l’esprit cette compréhension du processus démocratique.

Source