Des espaces vectoriels mathématiques révèlent le sexisme dans le langage

Des réseaux neuronaux ont analysé la structure du langage et ils ont découvert un biais du genre qui était totalement inconnu.


Des réseaux neuronaux ont analysé la structure du langage et ils ont découvert un sexisme dans les mots qui était totalement inconnu.

En 2013, des chercheurs de Google ont créé un réseau neuronal sur un corpus de 3 millions de mots extraits des textes de Google Actualités. L’objectif était de chercher des patterns dans la manière où certains mots apparaissent à côté d’autres. La découverte fut complexe, mais l’équipe de Google a réalisé qu’elle pouvait représenter ces patterns en utilisant des vecteurs dans un avec 300 dimensions.

La cartographie a montré que des mots, avec des significations similaires, occupaient des parties similaires dans cet espace vectoriel. Et on pouvait capturer la relation entre les mots avec de l’algèbre simple. Par exemple, l’homme est au roi ce que la femme est à la reine ou en utilisant la notation, homme : roi :: femme : reine. On a vu émerger d’autres relations telles que soeur : femme :: frère : homme, etc. On connait ces relations comme l’intégration des mots (Word Embedding).

Les données sont connues comme le Word2vec et elles sont très puissantes. De nombreux chercheurs ont commencé à les utiliser pour améliorer des choses telles que la traduction automatique ou la recherche intelligence sur le web. Le Word Embedding est surtout utilisé dans le Deep et le Machine Learning.

Mais aujourd’hui, Tolga Bolukbasi de l’université de Boston et quelques personnes de Microsoft Search estiment qu’il y a un problème avec cette base de données dans la mesure où elle est fondamentalement sexiste. Et ils fournissent de nombreuses preuves pour étayer leur hypothèse. Les preuves proviennent des requêtes sur l’espace vectoriel pour trouver les intégrations des mots. Par exemple, on peut poser la question suivante : Paris : France :: Tokyo :: X et le processus vous donneront le résultat X = Japon.

Mais si vous demandez à la base de données Père : Docteur :: Mère : X alors il vous répondra X = Infirmière. Ainsi, le biais est présent d’entrée puisque la base de données estime que les médecins sont toujours des hommes et que les infirmières sont toujours des femmes. On a également la requête homme : programmeur :: femme : x et la base de données vous dira que X est une ménagère.

En d’autres termes, le Word Embedding est foncièrement sexiste. Et cela se produit parce que n’importe quel biais dans les articles qui constituent est inévitablement capturé dans la géométrie de l’espace vectoriel. Et Bolukbasi et ses collègues sont désespérés par ce résultat. On aurait pu espérer que les textes de Google Actualités ne seraient pas sexistes puisque leurs auteurs sont censés être des journalistes professionnels.

Mais qu’est-ce qu’on peut faire ? L’équipe de Boston propose une solution. Puisqu’un vecteur est un objet , alors on peut le manipuler avec des outils mathématiques standards. La solution est évidente. On peut considérer le sexisme comme une sorte de déformation dans cet espace vectoriel. Le est une propriété que l’équipe peut chercher dans l’espace vectoriel. Et on peut le corriger en appliquant une déformation inverse pour préserver la structure globale de l’espace.

C’est la théorie. En pratique, la difficulté est de mesurer la nature de cette déformation. L’équipe l’a fait en cherchant des paires de mots qui produisent un vecteur similaire à elle : il. Cela a révélé une grosse liste d’analogie du genre. Par exemple, elle;il::sage-femme:médecin; couture:menuiserie;glousser:grimacer;nounou:chauffeur, etc. La question était de déterminer si ces analogies étaient correctes ou non. Et ils ont utilisé Mechanical Turk d’Amazon. Ils ont montré chaque analogie à 10 personnes et ils ont demandé si elles étaient sexistes ou non. Si une analogie était considérée comme sexiste par la moitié des personnes sondées, alors on pouvait confirmer la présence du sexisme.

Les résultats sont intéressants. La méthode révèle clairement un biais du genre dans des couplages de mots tels que sage-femme:médecin, couture:menuiserie, mais il y avait peu de biais des couplages tels que féminité:viril, couvent:monastère, sac à main:porte-documents, etc. En ayant compilé une liste de paires de mots sexistes, l’équipe a utilisé les données pour intégrer ces mots dans l’espace vectoriel pour voir si on pouvait supprimer le biais du genre. Ils ont appelé ce processus comme un Hard be-biasing. Finalement, ils ont utilisé l’espace vectoriel transformé pour produire une nouvelle liste d’analogies du genre et ils ont demandé à Mechanical Turk de définir le niveau de biais. Les nouvelles paires étaient elle:il::poule:coq ;domestique:femme de ménage ;fille:mec ;fils:fille, etc.

Selon les chercheurs, ce processus a réduit dramatiquement le biais du par les personnes de Mechanical Turk. Avec des évaluations empiriques, nous montrons que l’algorithme de hard be-biasing peut réduire le biais direct et indirect tout en préservant l’utilité de l’intégration des mots selon Bolukbasi. Les implications sont importantes. Un biais dans une intégration de mots dans une base comme Word2vec est automatiquement transmis à l’application qui l’exploite. Un exemple est qu’on utilise le Word Embedding pour améliorer les résultats de recherche sur le web. Si le mot « programmeur » est plus associé aux hommes, alors une recherche pour « CV programmeur » va mieux classer les hommes que les femmes. Le Word Embedding ne reflète pas seulement les stéréotypes, mais il peut aussi les amplifier selon Bolukbasi.

Et clairement, le langage est rempli d’exemples avec des biais du genre qui sont injustifiables. Une question intéressante est l’extension de ce type d’espace vectoriel mathématique pour le corriger. Une perspective sur le biais dans les mots est qu’il reflète le biais dans notre société et donc, nous devons supprimer les biais dans notre société plutôt que de corriger les mots selon Bolukbasi. Cependant, en réduisant les biais dans les systèmes informatiques, on peut aussi contribuer à réduire le biais dans la société. Au final, le Machine Learning est une méthode ayant beaucoup de potentiel, mais cette étude montre qu’elle peut amplifier le sexisme si on traite directement les données sans garantir leur neutralité au préalable.

Source : arXiv

N'oubliez pas de voter pour cet article !
1 étoile2 étoiles3 étoiles4 étoiles5 étoiles (1 votes, average: 5,00 out of 5)
Loading...
mm

Jacqueline Charpentier

Ayant fait une formation en chimie, il est normal que je me sois retrouvée dans une entreprise d'emballage. Désormais, je publie sur des médias, des blogs et des magazines pour vulgariser l'actualité scientifique et celle de la santé.

1 réponse

  1. Arnaud dit :

    Au début je trouvais l’article assez amusant mais au final, le machine learning montre ses faibles s’il n’y pas de solution pour garantir leur neutralité entre homme et femme.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *