Une voie plus simple vers une meilleure vision par ordinateur —

par Houssen Moshinaly · 24 novembre 2022

Suivez-nous sur notre page Facebook et notre canal Telegram

Avant qu’un modèle d’apprentissage automatique puisse effectuer une tâche, telle que l’identification d’un cancer dans des images médicales, le modèle doit être entraîné. La formation de modèles de classification d’images implique généralement de montrer au modèle des millions d’images d’exemple rassemblées dans un ensemble de données massif.

Cependant, l’utilisation de données d’images réelles peut soulever des problèmes pratiques et éthiques : les images pourraient enfreindre les lois sur le droit d’auteur, violer la vie privée des personnes ou être biaisées contre un certain groupe racial ou ethnique. Pour éviter ces pièges, les chercheurs peuvent utiliser des programmes de génération d’images pour créer des données synthétiques pour la formation de modèles. Mais ces techniques sont limitées car des connaissances spécialisées sont souvent nécessaires pour concevoir à la main un programme de génération d’images capable de créer des données de formation efficaces.

Des chercheurs du MIT, du MIT-IBM Watson AI Lab et d’ailleurs ont adopté une approche différente. Au lieu de concevoir des programmes de génération d’images personnalisés pour une tâche de formation particulière, ils ont rassemblé un ensemble de données de 21 000 programmes accessibles au public sur Internet. Ensuite, ils ont utilisé cette grande collection de programmes de génération d’images de base pour former un modèle de vision par ordinateur.

Ces programmes produisent des images diverses qui affichent des couleurs et des textures simples. Les chercheurs n’ont pas organisé ni modifié les programmes, qui ne comprenaient chacun que quelques lignes de code.

Les modèles qu’ils ont formés avec ce vaste ensemble de données de programmes ont classé les images avec plus de précision que d’autres modèles formés de manière synthétique. Et, alors que leurs modèles étaient moins performants que ceux formés avec des données réelles, les chercheurs ont montré que l’augmentation du nombre de programmes d’images dans l’ensemble de données augmentait également les performances du modèle, révélant un chemin vers une plus grande précision.

“Il s’avère qu’il est en fait préférable d’utiliser de nombreux programmes non sélectionnés plutôt que d’utiliser un petit ensemble de programmes que les gens doivent manipuler. Les données sont importantes, mais nous avons montré que vous pouvez aller assez loin sans données réelles”, déclare Manel Baradad. , étudiant diplômé en génie électrique et informatique (EECS) travaillant au Laboratoire d’informatique et d’intelligence artificielle (CSAIL) et auteur principal de l’article décrivant cette technique.

Les co-auteurs incluent Tongzhou Wang, un étudiant diplômé EECS à CSAIL; Rogerio Feris, scientifique principal et directeur du MIT-IBM Watson AI Lab ; Antonio Torralba, professeur de génie électrique et d’informatique de Delta Electronics et membre du CSAIL ; et l’auteur principal Phillip Isola, professeur agrégé à l’EECS et au CSAIL ; avec d’autres à JPMorgan Chase Bank et Xyla, Inc. La recherche sera présentée à la conférence sur les systèmes de traitement de l’information neuronale.

Repenser la préformation

Les modèles d’apprentissage automatique sont généralement pré-entraînés, ce qui signifie qu’ils sont d’abord entraînés sur un ensemble de données pour les aider à créer des paramètres pouvant être utilisés pour s’attaquer à une tâche différente. Un modèle de classification des rayons X peut être préformé à l’aide d’un énorme ensemble de données d’images générées synthétiquement avant d’être formé pour sa tâche réelle en utilisant un ensemble de données beaucoup plus petit de rayons X réels.

Ces chercheurs ont précédemment montré qu’ils pouvaient utiliser une poignée de programmes de génération d’images pour créer des données synthétiques pour la préformation du modèle, mais les programmes devaient être soigneusement conçus pour que les images synthétiques correspondent à certaines propriétés des images réelles. Cela a rendu la technique difficile à mettre à l’échelle.

Dans le nouveau travail, ils ont utilisé à la place un énorme ensemble de données de programmes de génération d’images non sélectionnés.

Ils ont commencé par rassembler une collection de 21 000 programmes de génération d’images à partir d’Internet. Tous les programmes sont écrits dans un langage de programmation simple et ne comprennent que quelques extraits de code, de sorte qu’ils génèrent rapidement des images.

“Ces programmes ont été conçus par des développeurs du monde entier pour produire des images possédant certaines des propriétés qui nous intéressent. Ils produisent des images qui ressemblent un peu à de l’art abstrait”, explique Baradad.

Ces programmes simples peuvent s’exécuter si rapidement que les chercheurs n’ont pas eu besoin de produire des images à l’avance pour entraîner le modèle. Les chercheurs ont découvert qu’ils pouvaient générer des images et former le modèle simultanément, ce qui rationalise le processus.

Ils ont utilisé leur vaste ensemble de données de programmes de génération d’images pour pré-entraîner des modèles de vision par ordinateur pour des tâches de classification d’images supervisées et non supervisées. Dans l’apprentissage supervisé, les données d’image sont étiquetées, tandis que dans l’apprentissage non supervisé, le modèle apprend à catégoriser les images sans étiquettes.

Amélioration de la précision

Lorsqu’ils ont comparé leurs modèles pré-entraînés à des modèles de vision par ordinateur de pointe qui avaient été pré-entraînés à l’aide de données synthétiques, leurs modèles étaient plus précis, ce qui signifie qu’ils plaçaient plus souvent les images dans les bonnes catégories. Alors que les niveaux de précision étaient encore inférieurs à ceux des modèles formés sur des données réelles, leur technique a réduit de 38 % l’écart de performances entre les modèles formés sur des données réelles et ceux formés sur des données synthétiques.

« Surtout, nous montrons que pour le nombre de programmes que vous collectez, les performances évoluent de manière logarithmique. Nous ne saturons pas les performances, donc si nous collectons plus de programmes, le modèle fonctionnerait encore mieux. Il existe donc un moyen d’étendre notre approche », dit Manelle.

Les chercheurs ont également utilisé chaque programme de génération d’images individuel pour la pré-formation, dans le but de découvrir les facteurs qui contribuent à la précision du modèle. Ils ont constaté que lorsqu’un programme génère un ensemble d’images plus diversifié, le modèle fonctionne mieux. Ils ont également constaté que les images colorées avec des scènes qui remplissent toute la toile ont tendance à améliorer le plus les performances du modèle.

Maintenant qu’ils ont démontré le succès de cette approche de préformation, les chercheurs veulent étendre leur technique à d’autres types de données, comme les données multimodales qui incluent du texte et des images. Ils souhaitent également continuer à explorer les moyens d’améliorer les performances de classification des images.

“Il y a encore un écart à combler avec des modèles entraînés sur des données réelles. Cela donne à notre recherche une direction que nous espérons que d’autres suivront”, dit-il.