La vision par ordinateur hybride alimentée par l’IA combine la physique et le big data

par Houssen Moshinaly · 16 juin 2023

Suivez-nous sur notre page Facebook et notre canal Telegram

Des chercheurs de l’UCLA et du laboratoire de recherche de l’armée des États-Unis ont défini une nouvelle approche pour améliorer les technologies de vision par ordinateur basées sur l’intelligence artificielle en ajoutant une sensibilisation basée sur la physique aux techniques basées sur les données.

Publié dans Intelligence artificielle de la nature, l’étude a offert un aperçu d’une méthodologie hybride conçue pour améliorer la façon dont les machines basées sur l’IA détectent, interagissent et réagissent à leur environnement en temps réel – comme dans la façon dont les véhicules autonomes se déplacent et manœuvrent, ou comment les robots utilisent la technologie améliorée pour effectuer des opérations de précision Actions.

La vision par ordinateur permet aux IA de voir et de donner un sens à leur environnement en décodant des données et en déduisant les propriétés du monde physique à partir d’images. Alors que ces images sont formées par la physique de la lumière et la mécanique, les techniques traditionnelles de vision par ordinateur se sont principalement concentrées sur l’apprentissage automatique basé sur les données pour améliorer les performances. La recherche basée sur la physique a, sur une piste distincte, été développée pour explorer les différents principes physiques derrière de nombreux défis de vision par ordinateur.

Il a été difficile d’intégrer une compréhension de la physique – les lois qui régissent la masse, le mouvement et plus encore – dans le développement des réseaux de neurones, où les IA modélisées d’après le cerveau humain avec des milliards de nœuds pour analyser des ensembles de données d’images massifs jusqu’à ce qu’ils comprendre ce qu’ils “voient”. Mais il existe maintenant quelques lignes de recherche prometteuses qui cherchent à ajouter des éléments de sensibilisation à la physique dans des réseaux basés sur les données déjà robustes.

L’étude de l’UCLA vise à exploiter la puissance des connaissances approfondies issues des données et du savoir-faire réel de la physique pour créer une IA hybride aux capacités améliorées.

“Les machines visuelles – voitures, robots ou instruments de santé qui utilisent des images pour percevoir le monde – accomplissent en fin de compte des tâches dans notre monde physique”, a déclaré l’auteur correspondant de l’étude, Achuta Kadambi, professeur adjoint de génie électrique et informatique à l’UCLA. École d’ingénieur Samueli. “Les formes d’inférence sensibles à la physique peuvent permettre aux voitures de conduire de manière plus sûre ou aux robots chirurgicaux d’être plus précis.”

L’équipe de recherche a décrit trois façons dont la physique et les données commencent à être combinées dans l’intelligence artificielle de vision par ordinateur :

Intégrer la physique dans les ensembles de données d’IA Étiquetez les objets avec des informations supplémentaires, telles que la vitesse à laquelle ils peuvent se déplacer ou leur poids, comme les personnages de jeux vidéo
Intégrer la physique dans les architectures de réseau Exécutez les données via un filtre réseau qui code les propriétés physiques dans ce que les caméras captent
Intégrer la physique dans la fonction de perte de réseau Tirez parti des connaissances basées sur la physique pour aider l’IA à interpréter les données d’entraînement sur ce qu’elle observe

Ces trois axes de recherche ont déjà donné des résultats encourageants dans l’amélioration de la vision par ordinateur. Par exemple, l’approche hybride permet à l’IA de suivre et de prédire plus précisément le mouvement d’un objet et peut produire des images précises et haute résolution à partir de scènes obscurcies par le mauvais temps.

Avec les progrès continus de cette approche à double modalité, les IA basées sur l’apprentissage en profondeur pourraient même commencer à apprendre les lois de la physique par elles-mêmes, selon les chercheurs.

Les autres auteurs de l’article sont Celso de Melo, informaticien du Laboratoire de recherche de l’armée, et Stefano Soatto, professeur d’informatique à la faculté de l’UCLA; Cho-Jui Hsieh, professeur agrégé d’informatique et Mani Srivastava, professeur de génie électrique et informatique et d’informatique.

La recherche a été financée en partie par une subvention du Laboratoire de recherche de l’armée. Kadambi est soutenu par des subventions de la National Science Foundation, du Army Young Investigator Program et de la Defense Advanced Research Projects Agency. Co-fondateur de Vayu Robotics, Kadambi reçoit également un financement d’Intrinsic, une société Alphabet. Hsieh, Srivastava et Soatto reçoivent le soutien d’Amazon.