Un nouveau modèle d’apprentissage automatique pourrait permettre aux robots de comprendre les interactions dans le monde à la manière des humains. —


  • FrançaisFrançais



  • Lorsque les humains regardent une scène, ils voient des objets et les relations entre eux. Au-dessus de votre bureau, il peut y avoir un ordinateur portable assis à gauche d’un téléphone, devant un écran d’ordinateur.

    De nombreux modèles d’apprentissage en profondeur ont du mal à voir le monde de cette façon parce qu’ils ne comprennent pas les relations enchevêtrées entre les objets individuels. Sans connaissance de ces relations, un robot conçu pour aider quelqu’un dans une cuisine aurait du mal à suivre une commande comme « prendre la spatule qui se trouve à gauche du poêle et la placer sur la planche à découper ».

    Dans un effort pour résoudre ce problème, les chercheurs du MIT ont développé un modèle qui comprend les relations sous-jacentes entre les objets dans une scène. Leur modèle représente les relations individuelles une par une, puis combine ces représentations pour décrire la scène globale. Cela permet au modèle de générer des images plus précises à partir de descriptions textuelles, même lorsque la scène comprend plusieurs objets disposés dans des relations différentes les uns avec les autres.

    Ce travail pourrait être appliqué dans des situations où les robots industriels doivent effectuer des tâches de manipulation complexes en plusieurs étapes, comme empiler des articles dans un entrepôt ou assembler des appareils. Cela rapproche également le domaine de l’activation de machines capables d’apprendre et d’interagir avec leur environnement plus comme le font les humains.

    « Quand je regarde une table, je ne peux pas dire qu’il y a un objet à l’emplacement XYZ. Nos esprits ne fonctionnent pas comme ça. Dans nos esprits, quand nous comprenons une scène, nous la comprenons vraiment en fonction des relations entre Nous pensons qu’en construisant un système capable de comprendre les relations entre les objets, nous pourrions utiliser ce système pour manipuler et modifier plus efficacement nos environnements », explique Yilun Du, doctorant au Laboratoire d’informatique et d’intelligence artificielle (CSAIL ) et co-auteur principal de l’article.

    Du a écrit l’article avec les co-auteurs principaux Shuang Li, un étudiant au doctorat CSAIL, et Nan Liu, un étudiant diplômé à l’Université de l’Illinois à Urbana-Champaign ; ainsi que Joshua B. Tenenbaum, professeur de développement de carrière Paul E. Newton en sciences cognitives et informatique au Département des sciences du cerveau et cognitives et membre du CSAIL ; et l’auteur principal Antonio Torralba, professeur Delta Electronics de génie électrique et d’informatique et membre du CSAIL. La recherche sera présentée à la conférence sur les systèmes de traitement de l’information neuronale en décembre.

    Une relation à la fois

    Le cadre développé par les chercheurs peut générer une image d’une scène basée sur une description textuelle des objets et de leurs relations, comme « Une table en bois à gauche d’un tabouret bleu. Un canapé rouge à droite d’un tabouret bleu ».

    Leur système décomposerait ces phrases en deux morceaux plus petits décrivant chaque relation individuelle (« une table en bois à gauche d’un tabouret bleu » et « un canapé rouge à droite d’un tabouret bleu »), puis modéliserait chaque partie séparément. . Ces pièces sont ensuite combinées par un processus d’optimisation qui génère une image de la scène.

    Les chercheurs ont utilisé une technique d’apprentissage automatique appelée modèles basés sur l’énergie pour représenter les relations d’objets individuels dans une description de scène. Cette technique leur permet d’utiliser un modèle basé sur l’énergie pour coder chaque description relationnelle, puis de les composer ensemble de manière à déduire tous les objets et relations.

    En décomposant les phrases en morceaux plus courts pour chaque relation, le système peut les recombiner de différentes manières, de sorte qu’il est mieux à même de s’adapter aux descriptions de scènes qu’il n’a jamais vues auparavant, explique Li.

    « D’autres systèmes prendraient toutes les relations de manière holistique et généreraient l’image unique à partir de la description. Cependant, de telles approches échouent lorsque nous avons des descriptions hors distribution, telles que des descriptions avec plus de relations, car ces modèles ne peuvent pas vraiment s’adapter. un coup pour générer des images contenant plus de relations. Cependant, comme nous composons ensemble ces modèles séparés et plus petits, nous pouvons modéliser un plus grand nombre de relations et nous adapter à de nouvelles combinaisons », explique Du.

    Le système fonctionne également en sens inverse – étant donné une image, il peut trouver des descriptions textuelles qui correspondent aux relations entre les objets de la scène. De plus, leur modèle peut être utilisé pour éditer une image en réorganisant les objets de la scène afin qu’ils correspondent à une nouvelle description.

    Comprendre des scènes complexes

    Les chercheurs ont comparé leur modèle à d’autres méthodes d’apprentissage en profondeur qui recevaient des descriptions textuelles et étaient chargées de générer des images affichant les objets correspondants et leurs relations. Dans chaque cas, leur modèle a surpassé les lignes de base.

    Ils ont également demandé aux humains d’évaluer si les images générées correspondaient à la description originale de la scène. Dans les exemples les plus complexes, où les descriptions contenaient trois relations, 91 % des participants ont conclu que le nouveau modèle fonctionnait mieux.

    « Une chose intéressante que nous avons trouvée est que pour notre modèle, nous pouvons augmenter notre phrase d’avoir une description de relation à avoir deux, trois, voire quatre descriptions, et notre approche continue d’être capable de générer des images qui sont correctement décrites par ceux descriptions, tandis que d’autres méthodes échouent », dit Du.

    Les chercheurs ont également montré les images modèles de scènes qu’ils n’avaient jamais vues auparavant, ainsi que plusieurs descriptions textuelles différentes de chaque image, et ils ont pu identifier avec succès la description qui correspondait le mieux aux relations d’objet dans l’image.

    Et lorsque les chercheurs ont donné au système deux descriptions de scènes relationnelles décrivant la même image mais de manières différentes, le modèle a pu comprendre que les descriptions étaient équivalentes.

    Les chercheurs ont été impressionnés par la robustesse de leur modèle, en particulier lorsqu’ils travaillaient avec des descriptions qu’il n’avait jamais rencontrées auparavant.

    « C’est très prometteur parce que c’est plus proche de la façon dont les humains fonctionnent. Les humains peuvent ne voir que plusieurs exemples, mais nous pouvons extraire des informations utiles de ces quelques exemples et les combiner pour créer des combinaisons infinies. Et notre modèle a une telle propriété qui permet d’apprendre à partir de moins de données mais de généraliser à des scènes ou des générations d’images plus complexes », explique Li.

    Bien que ces premiers résultats soient encourageants, les chercheurs aimeraient voir comment leur modèle fonctionne sur des images du monde réel plus complexes, avec des arrière-plans bruyants et des objets qui se bloquent les uns les autres.

    Ils souhaitent également intégrer éventuellement leur modèle dans des systèmes robotiques, permettant à un robot de déduire des relations d’objet à partir de vidéos, puis d’appliquer ces connaissances pour manipuler des objets dans le monde.

    « Développer des représentations visuelles capables de traiter la nature compositionnelle du monde qui nous entoure est l’un des principaux problèmes ouverts de la vision par ordinateur. Cet article fait des progrès significatifs sur ce problème en proposant un modèle basé sur l’énergie qui modélise explicitement les multiples relations entre les objets. représenté sur l’image. Les résultats sont vraiment impressionnants », déclare Josef Sivic, un éminent chercheur à l’Institut tchèque d’informatique, de robotique et de cybernétique de l’Université technique tchèque, qui n’a pas participé à cette recherche.

    Cette recherche est soutenue, en partie, par Raytheon BBN Technologies Corp., Mitsubishi Electric Research Laboratory, la National Science Foundation, l’Office of Naval Research et le IBM Thomas J. Watson Research Center.

    Informations complémentaires et résumé, « Apprendre à composer des relations visuelles : https://composevisualrelations.github.io/

    N'oubliez pas de voter pour cet article !
    1 étoile2 étoiles3 étoiles4 étoiles5 étoiles (No Ratings Yet)
    Loading...
    mm

    La Rédaction

    L'équipe rédactionnelle

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.