Un robot à quatre pattes traverse des terrains difficiles grâce à une vision 3D améliorée

par Houssen Moshinaly · 14 juin 2023

Suivez-nous sur notre page Facebook et notre canal Telegram

Des chercheurs dirigés par l’Université de Californie à San Diego ont développé un nouveau modèle qui entraîne des robots à quatre pattes à voir plus clairement en 3D. L’avancée a permis à un robot de traverser facilement et de manière autonome des terrains difficiles – y compris des escaliers, des sols rocheux et des chemins remplis d’espaces – tout en franchissant les obstacles sur son chemin.

Les chercheurs présenteront leurs travaux lors de la conférence 2023 sur la vision par ordinateur et la reconnaissance de formes (CVPR), qui se tiendra du 18 au 22 juin à Vancouver, au Canada.

“En fournissant au robot une meilleure compréhension de son environnement en 3D, il peut être déployé dans des environnements plus complexes du monde réel”, a déclaré l’auteur principal de l’étude Xiaolong Wang, professeur de génie électrique et informatique à l’UC San Diego Jacobs School. d’Ingénierie.

Le robot est équipé d’une caméra de profondeur orientée vers l’avant sur sa tête. La caméra est inclinée vers le bas à un angle qui lui donne une bonne vue à la fois de la scène devant elle et du terrain en dessous.

Pour améliorer la perception 3D du robot, les chercheurs ont développé un modèle qui prend d’abord des images 2D de la caméra et les traduit dans l’espace 3D. Pour ce faire, il examine une courte séquence vidéo composée de l’image actuelle et de quelques images précédentes, puis extrait des informations 3D de chaque image 2D. Cela inclut des informations sur les mouvements des jambes du robot tels que l’angle de l’articulation, la vitesse de l’articulation et la distance par rapport au sol. Le modèle compare les informations des images précédentes avec les informations de l’image actuelle pour estimer la transformation 3D entre le passé et le présent.

Le modèle fusionne toutes ces informations afin qu’il puisse utiliser l’image actuelle pour synthétiser les images précédentes. Au fur et à mesure que le robot se déplace, le modèle vérifie les images synthétisées par rapport aux images que la caméra a déjà capturées. S’ils correspondent bien, le modèle sait qu’il a appris la représentation correcte de la scène 3D. Sinon, il apporte des corrections jusqu’à ce qu’il réussisse.

La représentation 3D est utilisée pour contrôler le mouvement du robot. En synthétisant les informations visuelles du passé, le robot est capable de se souvenir de ce qu’il a vu, ainsi que des actions que ses jambes ont effectuées auparavant, et d’utiliser cette mémoire pour informer ses prochains mouvements.

“Notre approche permet au robot de construire une mémoire à court terme de son environnement 3D afin qu’il puisse mieux agir”, a déclaré Wang.

La nouvelle étude s’appuie sur les travaux antérieurs de l’équipe, où les chercheurs ont développé des algorithmes qui combinent la vision par ordinateur avec la proprioception – qui implique le sens du mouvement, de la direction, de la vitesse, de l’emplacement et du toucher – pour permettre à un robot à quatre pattes de marcher et de courir sur terrain accidenté tout en évitant les obstacles. L’avancée ici est qu’en améliorant la perception 3D du robot (et en la combinant avec la proprioception), les chercheurs montrent que le robot peut traverser des terrains plus difficiles qu’auparavant.

“Ce qui est excitant, c’est que nous avons développé un modèle unique qui peut gérer différents types d’environnements difficiles”, a déclaré Wang. “C’est parce que nous avons créé une meilleure compréhension de l’environnement 3D qui rend le robot plus polyvalent dans différents scénarios.”

L’approche a cependant ses limites. Wang note que leur modèle actuel ne guide pas le robot vers un objectif ou une destination spécifique. Lorsqu’il est déployé, le robot prend simplement une trajectoire rectiligne et s’il voit un obstacle, il l’évite en s’éloignant par une autre trajectoire rectiligne. “Le robot ne contrôle pas exactement où il va”, a-t-il déclaré. “Dans les travaux futurs, nous aimerions inclure davantage de techniques de planification et compléter le pipeline de navigation.”

Vidéo: https://youtu.be/vJdt610GSGk

Titre de l’article : “Mémoire volumétrique neurale pour le contrôle visuel de la locomotion.” Les co-auteurs incluent Ruihan Yang, UC San Diego, et Ge Yang, Massachusetts Institute of Technology.

Ce travail a été soutenu en partie par la National Science Foundation (CCF-2112665, IIS-2240014, 1730158 et ACI-1541349), un Amazon Research Award et des dons de Qualcomm.