Stable Cascade inaugure une nouvelle ère de la génération par IA

Houssen Moshinaly

il y a 3 mois

Des images IA exceptionnelles, rendues possible par le nouveau modèle Stable Cascade de Stability AI

Les points clés :

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

Stable Cascade est un nouveau modèle de génération d’images à partir de texte, disponible en preview de recherche.
Il utilise une approche en 3 étapes pour une qualité et une efficacité exceptionnelles.
Le modèle est facile à entraîner et à adapter grâce à son architecture Würstchen.
Les développeurs publient le code pour l’entraînement, le réglage fin, ControlNet et LoRA pour permettre de pousser plus loin les expérimentations.
Stable Cascade surpasse les modèles existants en qualité d’image et d’alignement texte-image.
Pour le moment, ce modèle n’est pas disponible pour une utilisation commerciale, mais uniquement à des fins de recherche

Aujourd’hui, les développeurs de Stability AI publient Stable Cascade en preview de recherche. Ce modèle innovant de génération d’images à partir de texte introduit une approche en 3 étapes intéressante, établissant de nouveaux benchmarks en termes de qualité, flexibilité, réglage fin et efficacité, avec un accent particulier sur la réduction des besoins matériels.

De plus, ils publient le code d’entraînement et d’inférence sur la page GitHub de Stability pour permettre une plus grande personnalisation du modèle et de ses résultats. Le modèle est disponible pour l’inférence dans la bibliothèque diffusers.

Sommaire

1 Détails techniques
2 Comparaison
3 Fonctionnalités supplémentaires
4 Code pour l’entraînement, le réglage fin, ControlNet et LoRA

Détails techniques

Stable Cascade se distingue de la gamme de modèles Stable Diffusion car il est construit sur une chaîne de 3 modèles distincts : les étapes A, B et C. Cette architecture permet une compression hiérarchique des images, produisant des résultats remarquables tout en utilisant un espace latent hautement compressé. Regardons chaque étape pour comprendre comment elles s’assemblent :

L’étape de génération de latents, l’étape C, transforme les entrées utilisateur en latents 24×24 compacts qui sont ensuite transmis à l’étape de décodage des latents (étapes A et B). Celle-ci permet de compresser les images, de façon similaire au rôle du VAE dans Stable Diffusion, mais avec une compression bien plus élevée.

Le processus technique de Stable Cascade – Crédit : Stability AI

En découplant la génération conditionnée par le texte (étape C) du décodage vers l’espace pixel haute résolution (étapes A et B), cela permet des entraînements ou réglages fins additionnels, y compris des ControlNets et des LoRAs, sur l’étape C seule. Cela représente une réduction de coût de 16x par rapport à l’entraînement d’un modèle Stable Diffusion de taille similaire. Les étapes A et B peuvent être réglées finement pour un contrôle additionnel, mais cela serait comparable au réglage fin du VAE dans un modèle Stable Diffusion. Pour la plupart des usages, cela n’apportera qu’un bénéfice minimal et il est suggéré simplement d’entraîner l’étape C et d’utiliser les étapes A et B dans leur état original.

Les étapes C et B seront publiées avec deux modèles différents : 1 milliard et 3,6 milliards de paramètres pour l’étape C, et 700 millions et 1,5 milliard de paramètres pour l’étape B. Il est recommandé d’utiliser le modèle 3,6 milliards pour l’étape C, car il produit les meilleurs résultats. Cependant, la version 1 milliard de paramètres peut être utilisée par ceux qui veulent se concentrer sur les configurations matérielles les plus légères.

Pour l’étape B, les deux modèles donnent d’excellents résultats, cependant celui à 1,5 milliard excelle dans la reconstruction des détails fins. Grâce à l’approche modulaire de Stable Cascade, les besoins en VRAM pour l’inférence peuvent être maintenus à environ 20 Go, et peuvent être encore réduits en utilisant les variantes plus petites (comme mentionné précédemment, cela peut aussi réduire la qualité finale des résultats).

Comparaison

Lors des évaluations, il a été constaté que Stable Cascade surpasse les autres modèles à la fois en alignement texte-image et en qualité esthétique dans presque toutes les comparaisons. Les figures montrent les résultats d’une évaluation humaine utilisant un mélange d’invites partielles et esthétiques :

L’image ci-dessus compare Stable Cascade (30 étapes d’inférence) à Playground v2 (50 étapes d’inférence), SDXL (50 étapes d’inférence), SDXL Turbo (1 étape d’inférence) et Würstchen v2 (30 étapes d’inférence).

L’image ci-dessus démontre les différences de vitesse d’inférence entre Stable Cascade, SDXL, Playground v2 et SDXL Turbo.

L’accent mis par Stable Cascade sur l’efficacité est mis en évidence par son architecture et son espace latent plus compressé. Bien que le plus gros modèle contienne 1,4 milliard de paramètres de plus que Stable Diffusion XL, il offre encore des temps d’inférence plus rapides, comme le montre la figure ci-dessous.

Fonctionnalités supplémentaires

En plus de la génération d’images classique à partir de texte, Stable Cascade peut générer des variations d’images et des générations image à image.

Les variations d’images fonctionnent en extrayant des plongements d’images à partir d’une image donnée à l’aide de CLIP, puis en les renvoyant au modèle. Ci-dessous, on peut voir quelques exemples de résultats. L’image de gauche montre l’originale, tandis que les quatre à sa droite sont les variations générées.

Exemples de variations d’images pour Stable Cascade

L’image à image fonctionne simplement en ajoutant du bruit à une image donnée, puis en utilisant cela comme point de départ pour la génération. Voici un exemple de bruitage de l’image de gauche, puis de génération à partir de là.

Exemples d’image to image pour Stable Cascade

Code pour l’entraînement, le réglage fin, ControlNet et LoRA

Avec la sortie de Stable Cascade, les développeurs publient tout le code pour l’entraînement, le réglage fin, ControlNet et LoRA afin de réduire les exigences pour pousser plus loin les expérimentations avec cette architecture. Voici quelques-uns des ControlNets qui seront publiés avec le modèle :

Inpainting / Outpainting : Entrée d’une image couplée à un masque pour accompagner une invite textuelle. Le modèle remplira alors la partie masquée de l’image en suivant l’invite textuelle fournie.
L’Inpainting dans Stable Cascade
Canny Edge : Générer une nouvelle image en suivant les bords d’une image existante donnée en entrée au modèle. D’après les tests réalisés, cela peut aussi développer des croquis.
Exemples d’images sur Stable Cascade avec Canny Edge

Dans l’image ci-dessus, les croquis du haut sont entrés dans le modèle pour produire les résultats du bas.

Super résolution 2x : Suréchantillonner une image au double de sa taille (par exemple, transformer une image 1024 x 1024 en une sortie 2048×2048) et peut aussi être utilisé sur des latents générés par l’étape C.
Le redimensionnement d’images avec Super Resolution 2x dans Stable Cascade

Les détails sont disponibles sur la page GitHub de Stability, y compris le code d’entraînement et d’inférence.

Bien que ce modèle ne soit actuellement pas disponible à des fins commerciales, si l’on souhaite explorer l’utilisation

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊


Le Basilic de Roko	Mon parcours de rédacteur web	Science corrompue et servile	Nous, Tueurs en série

Détails techniques

Comparaison

Fonctionnalités supplémentaires

Code pour l’entraînement, le réglage fin, ControlNet et LoRA

Mes livres