Les modèles d’apprentissage automatique peuvent-ils surmonter les ensembles de données biaisés ? —

par Houssen Moshinaly · 22 février 2022

Suivez-nous sur notre page Facebook et notre canal Telegram

Les systèmes d’intelligence artificielle peuvent être capables d’accomplir des tâches rapidement, mais cela ne signifie pas qu’ils le font toujours de manière équitable. Si les ensembles de données utilisés pour former des modèles d’apprentissage automatique contiennent des données biaisées, il est probable que le système puisse présenter ce même biais lorsqu’il prend des décisions dans la pratique.

Par exemple, si un ensemble de données contient principalement des images d’hommes blancs, un modèle de reconnaissance faciale formé avec ces données peut être moins précis pour les femmes ou les personnes ayant des tons de peau différents.

Un groupe de chercheurs du MIT, en collaboration avec des chercheurs de l’Université de Harvard et de Fujitsu, Ltd., a cherché à comprendre quand et comment un modèle d’apprentissage automatique est capable de surmonter ce type de biais d’ensemble de données. Ils ont utilisé une approche issue des neurosciences pour étudier comment les données d’entraînement affectent la capacité d’un réseau neuronal artificiel à apprendre à reconnaître des objets qu’il n’a jamais vus auparavant. Un réseau de neurones est un modèle d’apprentissage automatique qui imite le cerveau humain dans la manière dont il contient des couches de nœuds interconnectés, ou “neurones”, qui traitent les données.

Les nouveaux résultats montrent que la diversité des données d’entraînement a une influence majeure sur la capacité d’un réseau de neurones à surmonter les biais, mais en même temps, la diversité des ensembles de données peut dégrader les performances du réseau. Ils montrent également que la façon dont un réseau de neurones est formé et les types spécifiques de neurones qui émergent au cours du processus de formation peuvent jouer un rôle majeur dans sa capacité à surmonter un ensemble de données biaisé.

“Un réseau de neurones peut surmonter le biais des ensembles de données, ce qui est encourageant. Mais le principal point à retenir ici est que nous devons prendre en compte la diversité des données. Nous devons cesser de penser que si vous ne collectez qu’une tonne de données brutes, cela va obtenir vous quelque part. Nous devons d’abord faire très attention à la façon dont nous concevons les ensembles de données », explique Xavier Boix, chercheur au Département des sciences du cerveau et cognitives (BCS) et au Centre pour les cerveaux, les esprits et les machines (CBMM ), et auteur principal de l’article.

Les co-auteurs comprennent d’anciens étudiants diplômés Spandan Madan, un auteur correspondant qui poursuit actuellement un doctorat à Harvard, Timothy Henry, Jamell Dozier, Helen Ho et Nishchal Bhandari ; Tomotake Sasaki, un ancien scientifique invité maintenant chercheur à Fujitsu ; Frédo Durand, professeur de génie électrique et d’informatique et membre du Laboratoire d’informatique et d’intelligence artificielle ; et Hanspeter Pfister, professeur An Wang d’informatique à la Harvard School of Engineering and Applied Sciences. La recherche apparaît aujourd’hui dans Intelligence des machines naturelles.

Penser comme un neuroscientifique

Boix et ses collègues ont abordé le problème du biais des ensembles de données en pensant comme des neuroscientifiques. En neurosciences, explique Boix, il est courant d’utiliser des ensembles de données contrôlés dans les expériences, c’est-à-dire un ensemble de données dans lequel les chercheurs en savent le plus possible sur les informations qu’il contient.

L’équipe a construit des ensembles de données contenant des images de différents objets dans des poses variées et a soigneusement contrôlé les combinaisons afin que certains ensembles de données aient plus de diversité que d’autres. Dans ce cas, un jeu de données a moins de diversité s’il contient plus d’images qui montrent des objets d’un seul point de vue. Un ensemble de données plus diversifié contenait plus d’images montrant des objets de plusieurs points de vue. Chaque jeu de données contenait le même nombre d’images.

Les chercheurs ont utilisé ces ensembles de données soigneusement construits pour former un réseau de neurones pour la classification des images, puis ont étudié dans quelle mesure il était capable d’identifier des objets à partir de points de vue que le réseau n’a pas vus pendant la formation (appelée combinaison hors distribution).

Par exemple, si les chercheurs entraînent un modèle pour classer les voitures dans des images, ils veulent que le modèle apprenne à quoi ressemblent les différentes voitures. Mais si chaque Ford Thunderbird de l’ensemble de données d’entraînement est affiché de face, lorsque le modèle entraîné reçoit une image d’un Ford Thunderbird pris de côté, il peut le classer de manière erronée, même s’il a été entraîné sur des millions de photos de voitures.

Les chercheurs ont découvert que si l’ensemble de données est plus diversifié – si plus d’images montrent des objets de différents points de vue – le réseau est mieux à même de généraliser à de nouvelles images ou points de vue. La diversité des données est essentielle pour surmonter les préjugés, dit Boix.

“Mais ce n’est pas comme si plus de diversité de données était toujours meilleure; il y a une tension ici. Lorsque le réseau de neurones s’améliore pour reconnaître de nouvelles choses qu’il n’a pas vues, il deviendra alors plus difficile pour lui de reconnaître des choses qu’il a déjà vues, ” il dit.

Tester les méthodes de formation

Les chercheurs ont également étudié des méthodes d’entraînement du réseau de neurones.

Dans l’apprentissage automatique, il est courant d’entraîner un réseau à effectuer plusieurs tâches en même temps. L’idée est que s’il existe une relation entre les tâches, le réseau apprendra à mieux exécuter chacune s’il les apprend ensemble.

Mais les chercheurs ont découvert que le contraire était vrai : un modèle formé séparément pour chaque tâche était capable de surmonter les biais bien mieux qu’un modèle formé pour les deux tâches ensemble.

“Les résultats ont été vraiment frappants. En fait, la première fois que nous avons fait cette expérience, nous avons pensé que c’était un bug. Il nous a fallu plusieurs semaines pour réaliser que c’était un vrai résultat tellement c’était inattendu”, dit-il.

Ils ont plongé plus profondément dans les réseaux de neurones pour comprendre pourquoi cela se produit.

Ils ont constaté que la spécialisation des neurones semble jouer un rôle majeur. Lorsque le réseau de neurones est entraîné à reconnaître des objets dans des images, il apparaît que deux types de neurones émergent, l’un spécialisé dans la reconnaissance de la catégorie d’objet et l’autre dans la reconnaissance du point de vue.

Lorsque le réseau est formé pour effectuer des tâches séparément, ces neurones spécialisés sont plus importants, explique Boix. Mais si un réseau est formé pour effectuer les deux tâches simultanément, certains neurones se dilueront et ne se spécialiseront pas pour une tâche. Ces neurones non spécialisés sont plus susceptibles de se confondre, dit-il.

“Mais la question suivante est maintenant, comment ces neurones sont-ils arrivés là ? Vous entraînez le réseau de neurones et ils émergent du processus d’apprentissage. Personne n’a dit au réseau d’inclure ces types de neurones dans son architecture. C’est la chose fascinante”, a-t-il ajouté. il dit.

C’est un domaine que les chercheurs espèrent explorer avec des travaux futurs. Ils veulent voir s’ils peuvent forcer un réseau de neurones à développer des neurones avec cette spécialisation. Ils souhaitent également appliquer leur approche à des tâches plus complexes, telles que des objets aux textures compliquées ou des illuminations variées.

Boix est encouragé par le fait qu’un réseau de neurones peut apprendre à surmonter les préjugés, et il espère que leur travail pourra inspirer les autres à réfléchir davantage aux ensembles de données qu’ils utilisent dans les applications d’IA.

Ce travail a été soutenu, en partie, par la National Science Foundation, un Google Faculty Research Award, le Toyota Research Institute, le Center for Brains, Minds, and Machines, Fujitsu Laboratories Ltd. et la MIT-Sensetime Alliance on Artificial Intelligence.