Stable Diffusion 3 : Une décortication aux petits oignons de la prompt et de meilleurs textes

Houssen Moshinaly

il y a 3 mois

Les principaux points-clés :

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

Stability AI présente la version préliminaire de Stable Diffusion 3, un modèle de génération d’images et de textes de haute qualité.
Stable Diffusion 3 se distingue par sa capacité à répondre à des requêtes complexes, qui impliquent plusieurs éléments ou conditions.
Stable Diffusion 3 utilise une architecture innovante basée sur la diffusion, qui combine les recherches récentes en matière de génération d’images.
Le modèle n’est pas encore disponible pour le grand public, mais il est possible de s’inscrire sur une liste d’attente.
Stability AI a récemment lancé plusieurs nouveaux modèles, dont Stable Cascade, Stable Video Diffusion et Stable Zero123.

Sommaire

1 Une performance améliorée sur les requêtes complexes
2 Une architecture innovante basée sur la diffusion
3 Des précautions pour éviter les abus
4 D’autres modèles récemment lancés

Une performance améliorée sur les requêtes complexes

Stable Diffusion 3 se distingue par sa capacité à répondre à des requêtes complexes, qui impliquent plusieurs éléments ou conditions. Par exemple, le PDG de Stability AI, Emad Mostaque, a montré comment le modèle pouvait générer une image d’un chat avec des lunettes de soleil, une cravate et un chapeau, en respectant les couleurs et les formes demandées.

Prompt pour Stable Diffusion 3 par Emad Mostaque : “Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat”

Il reste à voir si le modèle fonctionne toujours aussi bien en pratique, et combien d’essais par image sont nécessaires pour obtenir un tel résultat. Selon Mostaque, l’image a été générée avec un modèle de base non ajusté de Stable Diffusion 3. Les démonstrations sur X suggèrent une meilleure capacité à suivre les requêtes que le modèle DALL-E 3 d’OpenAI, qui est actuellement le meilleur dans cette catégorie.

Une architecture innovante basée sur la diffusion

Stable Diffusion 3 utilise une architecture innovante basée sur la diffusion, qui combine les recherches récentes en matière de génération d’images, notamment la Diffusion Transformer Architecture avec le Flow Matching. Le modèle dispose de 800 millions à 8 milliards de paramètres, ce qui lui confère une grande puissance de calcul. Stability AI prévoit de publier un rapport technique détaillé prochainement.

Le modèle n’est pas encore disponible pour le grand public, mais il est possible de s’inscrire sur une liste d’attente ici. La phase de prévisualisation sert à améliorer les performances et la sécurité du modèle avant sa sortie officielle, indique l’entreprise.

Des précautions pour éviter les abus

Stability AI affirme avoir pris de nombreuses précautions pour éviter que le modèle ne soit détourné par des acteurs malveillants, depuis la phase d’entraînement jusqu’aux phases de test, d’évaluation et de déploiement.

L’entreprise souligne également sa collaboration continue avec les chercheurs, les experts et la communauté dans le développement et l’utilisation publique du modèle. Comme ils sont open source et modifiables, les modèles Stable Diffusion sont des cibles faciles pour les abus dans les applications controversées de l’imagerie artificielle.

Stable Diffusion a aussi été critiqué et poursuivi en justice pour ses données d’entraînement. Pour Stable Diffusion 3, des artistes ont retiré des millions d’œuvres des données d’entraînement en amont. Stability AI a évité ce problème dans l’annonce de Stable Diffusion 3.

D’autres modèles récemment lancés

Stability AI a récemment lancé plusieurs nouveaux modèles, dont Stable Cascade, un modèle très rapide de texte vers image. D’autres modèles incluent Stable Video Diffusion (SVD), un modèle génératif de vidéo qui produit des vidéos artificielles avec une meilleure fluidité et cohérence, et Stable Zero123, un modèle pour les applications de texte vers 3D.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊


Le Basilic de Roko	Mon parcours de rédacteur web	Science corrompue et servile	Nous, Tueurs en série

Une performance améliorée sur les requêtes complexes

Une architecture innovante basée sur la diffusion

Des précautions pour éviter les abus

D’autres modèles récemment lancés

Mes livres