Site icon Actualité Houssenia Writing

PaLM-E : l’intelligence artificielle de Google qui sait tout faire

Google a dévoilé PaLM-E, un cerveau robotique généraliste qui prend en compte le contexte visuel et linguistique pour générer des actions appropriées. Il s’adapte à différents environnements et situations grâce à son apprentissage continu et à sa mémoire externe.

Google vient de dévoiler PaLM-E, un modèle d’intelligence artificielle multimodal et incarné qui peut contrôler différents robots en simulation et dans le monde réel, tout en étant compétent sur des tâches générales de question-réponse et de légendage visuels. Ce modèle représente une avancée majeure dans le domaine de l’IA incarnée, qui vise à doter les machines d’une compréhension du monde physique à travers des interactions multimodales.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

PaLM-E est le fruit d’une collaboration entre des chercheurs de Google et de l’Université technique de Berlin. Il s’agit d’un modèle pré-entraîné sur des données massives provenant du langage, de la vision et du langage visuel (comme les légendes ou les dialogues associés à des images ou des vidéos). Il dispose de 562 milliards de paramètres, ce qui en fait l’un des plus grands modèles d’IA au monde.

PaLM-E se distingue par sa capacité à prendre en compte le contexte visuel et linguistique pour générer des actions appropriées pour un robot. Par exemple, il peut répondre à des commandes comme “ramasse la balle rouge” ou “tourne-toi vers la gauche” en utilisant la caméra du robot comme entrée visuelle et en produisant une séquence de mouvements comme sortie. Il peut également répondre à des questions sur ce qu’il voit ou fait, comme “quelle est la couleur du cube que tu tiens ?” ou “pourquoi as-tu renversé le verre ?”.

PaLM-E n’a pas besoin d’être spécialement entraîné pour chaque type de robot ou chaque tâche. Il peut s’adapter à différents environnements et situations grâce à son apprentissage continu et à sa mémoire externe. Il peut ainsi mémoriser les informations pertinentes pour résoudre les problèmes qu’il rencontre. Par exemple, il peut se souvenir du nom d’un objet qu’il a déjà vu ou entendu, ou du résultat d’une action qu’il a déjà effectuée.

Les chercheurs ont testé PaLM-E sur plusieurs robots réels et simulés, comme Kuka IIWA, Franka Emika Panda ou Fetch Robotics Freigh. Ils ont évalué ses performances sur différentes tâches impliquant la manipulation d’objets, la navigation spatiale ou la communication interactive. Ils ont également comparé PaLM-E à d’autres modèles d’IA multimodaux existants, comme CLIP+GPT-3 ou ALIGN+GPT-3.

Les résultats montrent que PaLM-E dépasse largement ses concurrents sur les tâches incarnées, tout en étant au moins aussi bon qu’eux sur les tâches non-incarnées (comme répondre à des questions générales sur des images). De plus, PaLM-E bénéficie d’un transfert positif : le modèle profite de son entraînement conjoint sur divers domaines liés au langage, à la vision et au langage visuel.

PaLM-E représente donc une avancée importante vers la création d’une IA généraliste capable de comprendre et d’interagir avec le monde physique dans toute sa complexité. Les chercheurs espèrent que leur modèle pourra inspirer de nouvelles applications dans le domaine de la robotique sociale ou industrielle.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

Quitter la version mobile