Un moyen d’étendre les ensembles de données d’entraînement pour les tâches de manipulation améliore les performances des robots de 40 % ou plus

par Houssen Moshinaly · 30 juin 2022

Suivez-nous sur notre page Facebook et notre canal Telegram

Dans une étape vers des robots qui peuvent apprendre à la volée comme le font les humains, une nouvelle approche élargit les ensembles de données de formation pour les robots qui travaillent avec des objets mous comme des cordes et des tissus, ou dans des environnements encombrés.

Développé par des chercheurs en robotique de l’Université du Michigan, il pourrait réduire le temps d’apprentissage des nouveaux matériaux et environnements à quelques heures plutôt qu’à une semaine ou deux.

Dans les simulations, l’ensemble de données de formation élargi a amélioré le taux de réussite d’un robot enroulant une corde autour d’un bloc moteur de plus de 40 % et a presque doublé les succès d’un robot physique pour une tâche similaire.

Cette tâche fait partie de celles qu’un mécanicien de robot devrait pouvoir accomplir facilement. Mais en utilisant les méthodes d’aujourd’hui, apprendre à manipuler chaque tuyau ou ceinture inconnu nécessiterait d’énormes quantités de données, probablement recueillies pendant des jours ou des semaines, déclare Dmitry Berenson, professeur agrégé de robotique à l’UM et auteur principal d’un article présenté aujourd’hui à Robotics : Science and Systèmes à New York.

Pendant ce temps, le robot jouait avec le tuyau — en l’étirant, en rapprochant les extrémités, en l’enroulant autour d’obstacles et ainsi de suite — jusqu’à ce qu’il comprenne toutes les façons dont le tuyau pouvait bouger.

“Si le robot doit jouer longtemps avec le tuyau avant de pouvoir l’installer, cela ne fonctionnera pas pour de nombreuses applications”, a déclaré Berenson.

En effet, la mécanique humaine ne serait probablement pas impressionnée par un collègue robot qui aurait besoin de ce genre de temps. Berenson et Peter Mitrano, un doctorant en robotique, ont donc modifié un algorithme d’optimisation pour permettre à un ordinateur de faire certaines des généralisations que nous, les humains, faisons – prédire comment la dynamique observée dans un cas pourrait se répéter dans d’autres.

Dans un exemple, le robot a poussé des cylindres sur une surface encombrée. Dans certains cas, le cylindre n’a rien heurté, tandis que dans d’autres, il est entré en collision avec d’autres cylindres et ils se sont déplacés en réponse.

Si le cylindre n’a rien heurté, ce mouvement peut être répété n’importe où sur la table où la trajectoire ne le mène pas dans d’autres cylindres. C’est intuitif pour un humain, mais un robot doit obtenir ces données. Et plutôt que de faire des expériences chronophages, le programme de Mitrano et Berenson peut créer des variations sur le résultat de cette première expérience qui servent le robot de la même manière.

Ils se sont concentrés sur trois qualités pour leurs données fabriquées. Il devait être pertinent, diversifié et valide. Par exemple, si vous ne vous préoccupez que des cylindres mobiles du robot sur la table, les données au sol ne sont pas pertinentes. Le revers de la médaille est que les données doivent être diverses — toutes les parties du tableau, tous les angles doivent être explorés.

“Si vous maximisez la diversité des données, elles ne seront pas assez pertinentes. Mais si vous maximisez la pertinence, elles n’auront pas assez de diversité”, a déclaré Mitrano. “Les deux sont importants.”

Et enfin, les données doivent être valides. Par exemple, toutes les simulations qui ont deux cylindres occupant le même espace seraient invalides et doivent être identifiées comme invalides afin que le robot sache que cela ne se produira pas.

Pour la simulation et l’expérience de la corde, Mitrano et Berenson ont élargi l’ensemble de données en extrapolant la position de la corde à d’autres emplacements dans une version virtuelle d’un espace physique – tant que la corde se comporterait de la même manière que dans le premier exemple. En utilisant uniquement les données d’entraînement initiales, le robot simulé a accroché la corde autour du bloc moteur 48 % du temps. Après s’être entraîné sur l’ensemble de données augmentées, le robot a réussi 70 % du temps.

Une expérience explorant l’apprentissage à la volée avec un vrai robot a suggéré que permettre au robot d’étendre chaque tentative de cette manière double presque son taux de réussite au cours de 30 tentatives, avec 13 tentatives réussies au lieu de sept.

Ce travail a été soutenu par les subventions IIS-1750489 et IIS-2113401 de la National Science Foundation, la subvention N00014-21-1-2118 de l’Office of Naval Research et le Toyota Research Institute.