Stable Diffusion 3 : Une décortication aux petits oignons de la prompt et de meilleurs textes


  • FrançaisFrançais

  • Stability AI vient de dévoiler la version préliminaire de Stable Diffusion 3. Une meilleure segmentation de la prompt et le texte s’améliore de plus en plus.


    Suivez-nous sur notre page Facebook et notre canal Telegram


    Les principaux points-clés :

    Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

    • Stability AI présente la version préliminaire de Stable Diffusion 3, un modèle de génération d’images et de textes de haute qualité.
    • Stable Diffusion 3 se distingue par sa capacité à répondre à des requêtes complexes, qui impliquent plusieurs éléments ou conditions.
    • Stable Diffusion 3 utilise une architecture innovante basée sur la diffusion, qui combine les recherches récentes en matière de génération d’images.
    • Le modèle n’est pas encore disponible pour le grand public, mais il est possible de s’inscrire sur une liste d’attente.
    • Stability AI a récemment lancé plusieurs nouveaux modèles, dont Stable Cascade, Stable Video Diffusion et Stable Zero123.

    Une performance améliorée sur les requêtes complexes

    Stable Diffusion 3 se distingue par sa capacité à répondre à des requêtes complexes, qui impliquent plusieurs éléments ou conditions. Par exemple, le PDG de Stability AI, Emad Mostaque, a montré comment le modèle pouvait générer une image d’un chat avec des lunettes de soleil, une cravate et un chapeau, en respectant les couleurs et les formes demandées.

    Prompt pour Stable Diffusion 3 par Emad Mostaque : “Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat”

    Il reste à voir si le modèle fonctionne toujours aussi bien en pratique, et combien d’essais par image sont nécessaires pour obtenir un tel résultat. Selon Mostaque, l’image a été générée avec un modèle de base non ajusté de Stable Diffusion 3. Les démonstrations sur X suggèrent une meilleure capacité à suivre les requêtes que le modèle DALL-E 3 d’OpenAI, qui est actuellement le meilleur dans cette catégorie.

    Une architecture innovante basée sur la diffusion

    Stable Diffusion 3 utilise une architecture innovante basée sur la diffusion, qui combine les recherches récentes en matière de génération d’images, notamment la Diffusion Transformer Architecture avec le Flow Matching. Le modèle dispose de 800 millions à 8 milliards de paramètres, ce qui lui confère une grande puissance de calcul. Stability AI prévoit de publier un rapport technique détaillé prochainement.

    Le modèle n’est pas encore disponible pour le grand public, mais il est possible de s’inscrire sur une liste d’attente ici. La phase de prévisualisation sert à améliorer les performances et la sécurité du modèle avant sa sortie officielle, indique l’entreprise.

    Des précautions pour éviter les abus

    Stability AI affirme avoir pris de nombreuses précautions pour éviter que le modèle ne soit détourné par des acteurs malveillants, depuis la phase d’entraînement jusqu’aux phases de test, d’évaluation et de déploiement.

    L’entreprise souligne également sa collaboration continue avec les chercheurs, les experts et la communauté dans le développement et l’utilisation publique du modèle. Comme ils sont open source et modifiables, les modèles Stable Diffusion sont des cibles faciles pour les abus dans les applications controversées de l’imagerie artificielle.

    Stable Diffusion a aussi été critiqué et poursuivi en justice pour ses données d’entraînement. Pour Stable Diffusion 3, des artistes ont retiré des millions d’œuvres des données d’entraînement en amont. Stability AI a évité ce problème dans l’annonce de Stable Diffusion 3.

    D’autres modèles récemment lancés

    Stability AI a récemment lancé plusieurs nouveaux modèles, dont Stable Cascade, un modèle très rapide de texte vers image. D’autres modèles incluent Stable Video Diffusion (SVD), un modèle génératif de vidéo qui produit des vidéos artificielles avec une meilleure fluidité et cohérence, et Stable Zero123, un modèle pour les applications de texte vers 3D.

    Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

    Houssen Moshinaly

    Rédacteur en chef d'Actualité Houssenia Writing. Rédacteur web depuis 2009.

    Blogueur et essayiste, j'ai écrit 9 livres sur différents sujets comme la corruption en science, les singularités technologiques ou encore des fictions. Je propose aujourd'hui des analyses politiques et géopolitiques sur le nouveau monde qui arrive. J'ai une formation de rédaction web et une longue carrière de prolétaire.

    Pour me contacter personnellement :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *