GLIGEN : Des images par IA parfaites grâce au langage ancré


  • FrançaisFrançais

  • Découvrez GLIGEN, le nouvel outil de Google pour créer des images réalistes par IA. Il se base sur le langage ancré, qui fait référence à des éléments concrets du monde réel, pour contrôler la génération d’images.


    Découvrez GLIGEN, le nouvel outil de Google pour créer des images réalistes par IA. Il se base sur le langage ancré, qui fait référence à des éléments concrets du monde réel, pour contrôler la génération d’images.

    L’intelligence artificielle (IA) est capable de créer des images à partir de textes, mais comment s’assurer que ces images correspondent bien à ce que l’on veut ? C’est le défi auquel s’attaque GLIGEN, un outil développé par des chercheurs de l’Université de Californie à Berkeley et de Google Research.

    GLIGEN signifie Grounded-Language-to-Image Generation, c’est-à-dire la génération d’images à partir de langage ancré. Le langage ancré est un langage qui fait référence à des éléments concrets du monde réel, comme des objets, des lieux ou des actions. Par exemple, “un chat noir sur un canapé rouge” est une phrase ancrée, car elle décrit une scène précise.

    Découvrez GLIGEN, le nouvel outil de Google pour créer des images réalistes par IA. Il se base sur le langage ancré, qui fait référence à des éléments concrets du monde réel, pour contrôler la génération d’images.

    GLIGEN permet de conditionner la génération d’images par IA à partir de différents types d’ancrages, comme des boîtes, des points clés ou des images. Par exemple, on peut demander à GLIGEN de créer une image d’un chien qui saute par-dessus une haie, en lui donnant la position et la forme de la haie et du chien. On peut aussi lui donner une image existante et lui demander de la modifier selon un texte, comme “ajoute un chapeau au chien”.

    GLIGEN se base sur des modèles pré-entraînés de génération d’images par diffusion, qui sont des modèles qui créent progressivement des images à partir de bruit aléatoire, en suivant les instructions d’un texte. Ces modèles sont très puissants, mais ils ont aussi leurs limites : ils peuvent produire des images floues, incohérentes ou hors-sujet.

    Pour améliorer la qualité et la fidélité des images générées, GLIGEN ajoute une couche d’attention sélective à chaque bloc du modèle de diffusion. Cette couche permet au modèle de se focaliser sur les parties pertinentes du texte et de l’ancrage pour créer l’image. Ainsi, GLIGEN peut contrôler plus finement le contenu et la disposition des éléments dans l’image.

    Découvrez GLIGEN, le nouvel outil de Google pour créer des images réalistes par IA. Il se base sur le langage ancré, qui fait référence à des éléments concrets du monde réel, pour contrôler la génération d’images.

    GLIGEN a été testé sur plusieurs jeux de données d’images annotées, comme COCO et LVIS. Les résultats montrent que GLIGEN surpasse les modèles existants de génération d’images à partir de textes ou de mises en page. De plus, GLIGEN peut s’adapter à différents types d’ancrages sans avoir besoin d’être ré-entraîné.

    GLIGEN est donc un outil prometteur pour la génération d’images par IA, qui offre plus de contrôle et de créativité aux utilisateurs. Il pourrait avoir de nombreuses applications dans des domaines comme le design graphique, la réalité augmentée ou le divertissement.

    À noter que GLIGEN n’est pas encore disponible dans Stable Diffusion, la plateforme open source de Google pour la génération d’images par diffusion. Cependant, les chercheurs espèrent que cela ne saurait tarder, vu la nature open source du projet.

    Pour en savoir plus sur GLIGEN, vous pouvez consulter le site web du projet ou lire l’article scientifique publié sur arXiv. Vous pouvez aussi accéder au code source de GLIGEN sur GitHub ainsi qu’avoir une démo sur Hugging Face.

    Houssen Moshinaly

    Rédacteur en chef d'Actualité Houssenia Writing. Rédacteur web depuis 2009.

    Blogueur et essayiste, j'ai écrit 9 livres sur différents sujets comme la corruption en science, les singularités technologiques ou encore des fictions. Je propose aujourd'hui des analyses politiques et géopolitiques sur le nouveau monde qui arrive. J'ai une formation de rédaction web et une longue carrière de prolétaire.

    Pour me contacter personnellement :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *