LCM-LoRA : comment générer des images réalistes en un temps record

Houssen Moshinaly

il y a 5 mois

La génération d’images est un domaine de l’intelligence artificielle, qui consiste à créer des images réalistes et diverses à partir de textes ou d’autres entrées. Pour cela, on utilise souvent des modèles génératifs, qui sont des algorithmes capables d’apprendre à produire des images à partir de données.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

Parmi les modèles génératifs les plus performants, on trouve les modèles de diffusion latente (LDMs), qui transforment un vecteur de bruit aléatoire en une image réaliste à travers une série d’étapes de diffusion. Chaque étape de diffusion consiste à ajouter un peu de bruit à l’image et à mettre à jour le vecteur latent. Le processus est inversé lors de l’inférence, où le modèle part d’un vecteur de bruit aléatoire et retire progressivement le bruit pour générer l’image finale.

Les LDMs ont plusieurs avantages par rapport aux autres modèles génératifs, tels que :

Ils peuvent générer des images de haute résolution avec des détails fins et des contours nets.
Ils peuvent gérer des entrées diverses et complexes, comme du texte, des croquis ou des images partielles.
Ils peuvent apprendre à partir de données non étiquetées, sans nécessiter d’information de classe ou de masque de segmentation.

Cependant, les LDMs ont aussi un inconvénient majeur : ils sont très lents et consomment beaucoup de mémoire, nécessitant des centaines d’étapes d’inférence et de grandes quantités de ressources GPU.

C’est là qu’intervient LCM-LoRA. LCM-LoRA est un module d’accélération de la diffusion stable universel, qui peut accélérer les LDMs jusqu’à 10 fois, tout en conservant ou même en améliorant la qualité des images. Dans cet article, nous allons expliquer ce qu’est LCM-LoRA, comment il fonctionne et pourquoi il révolutionne la génération d’images.

Sommaire

1 Qu’est-ce que LCM-LoRA ?
2 Comment fonctionne LCM-LoRA ?
3 Pourquoi LCM-LoRA est-il une révolution pour la génération d’images ?
4 Comment utiliser LCM-LoRA pour vos propres projets de génération d’images ?
5 En bref

Qu’est-ce que LCM-LoRA ?

LCM-LoRA signifie Latent Consistency Model — Latent Residual Adapters. C’est une technique qui permet de réduire les LDMs en des modèles plus petits et plus rapides, sans sacrifier la qualité des images.

L’idée principale de LCM-LoRA est d’entraîner un petit nombre d’adaptateurs, appelés couches LoRA, au lieu du modèle complet. Les couches LoRA sont insérées entre les blocs convolutionnels du LDM, et apprennent à imiter la sortie du modèle original. Le modèle résultant, appelé LCM, peut générer des images avec moins d’étapes de diffusion et moins de consommation de mémoire.

Mais ce n’est pas tout. LCM-LoRA a aussi une autre propriété remarquable : il peut être directement branché sur n’importe quelle version affinée du LDM, sans nécessiter d’entraînement supplémentaire. Cela signifie que LCM-LoRA peut être utilisé comme un module d’accélération de Stable Diffusion, qui peut accélérer n’importe quelle tâche de génération d’images basée sur les LDMs.

Par exemple, si vous avez un LDM affiné qui peut générer des visages d’anime à partir de texte, vous pouvez simplement insérer les couches LCM-LoRA dans le modèle, et obtenir un modèle plus rapide et plus léger qui peut générer la même qualité d’images.

Comment fonctionne LCM-LoRA ?

LCM-LoRA fonctionne en exploitant deux idées clés :

Les vecteurs latents des LDMs sont cohérents à travers les différentes étapes de diffusion, ce qui signifie qu’ils ne changent pas beaucoup lorsque le bruit est ajouté ou retiré. Cela implique que les vecteurs latents peuvent être réutilisés pour plusieurs étapes de diffusion, réduisant le coût computationnel et l’empreinte mémoire.
Les vecteurs latents des LDMs sont transférables à travers les différents modèles affinés, ce qui signifie qu’ils peuvent être utilisés pour générer des images pour différentes tâches et domaines. Cela implique que les vecteurs latents peuvent être partagés par plusieurs modèles, permettant une accélération universelle.

Sur la base de ces idées, LCM-LoRA se compose de deux étapes :

Distillation : Dans cette étape, un petit nombre de couches LoRA sont entraînées à approximer la sortie du LDM original, en utilisant un cadre maître-élève. Les couches LoRA sont insérées entre les blocs convolutionnels du LDM, et apprennent à ajuster les vecteurs latents en fonction du niveau de bruit. Le modèle résultant, appelé LCM, peut générer des images avec moins d’étapes de diffusion et moins de consommation de mémoire.
Transfert : Dans cette étape, les couches LoRA sont transférées à n’importe quelle version affinée du LDM, sans nécessiter d’entraînement supplémentaire. Les couches LoRA sont insérées entre les blocs convolutionnels du modèle affiné, et utilisent les mêmes vecteurs latents que le LDM original. Le modèle résultant peut générer des images pour différentes tâches et domaines, avec la même vitesse et qualité que le LCM.

Pourquoi LCM-LoRA est-il une révolution pour la génération d’images ?

LCM-LoRA est une révolution pour la génération d’images car il peut améliorer significativement l’efficacité et la polyvalence des LDMs, sans compromettre la qualité. Ci-dessous, des tests réalisés par Hugging Face.

Image générée avec SDXL en 4 étapes à l’aide d’un LCM LoRA – Crédit : Blog de Hugging Face

Générations LCM LoRA avec 1 à 8 étapes – Crédit : Blog de Hugging Face

Selon le rapport technique des auteurs, LCM-LoRA peut obtenir les résultats suivants :

Il peut accélérer les LDMs jusqu’à 10 fois, réduisant le temps d’inférence de 10 secondes à 1 seconde sur un seul GPU.
Il peut réduire la consommation de mémoire des LDMs jusqu’à 4 fois, permettant la génération d’images plus grandes avec moins de ressources GPU.
Il peut maintenir ou même améliorer la qualité des images des LDMs, obtenant des scores FID et LPIPS plus élevés que les modèles originaux.
Il peut se transférer à n’importe quelle version affinée des LDMs, sans nécessiter d’entraînement supplémentaire, permettant une accélération universelle pour diverses tâches de génération d’images.

Comment utiliser LCM-LoRA pour vos propres projets de génération d’images ?

Si vous êtes intéressé par l’utilisation de LCM-LoRA pour vos propres projets de génération d’images, vous pouvez consulter la page du projet et le dépôt GitHub des auteurs. Vous y trouverez le code, les modèles pré-entraînés et les instructions sur la façon d’utiliser LCM-LoRA pour diverses tâches de génération d’images, telles que :

Génération d’images à partir de texte
Génération d’images à partir de croquis
Restauration d’images
Super-résolution d’images
Transfert de style d’images

Vous pouvez également rejoindre le serveur Discord LCM-LoRA pour interagir avec les auteurs et les autres utilisateurs, et obtenir des mises à jour sur les derniers développements et applications de LCM-LoRA.

En bref

LCM-LoRA est un module d’accélération de la diffusion stable universel qui peut accélérer les LDMs jusqu’à 10 fois, tout en conservant ou même en améliorant la qualité des images. Il peut également se transférer à n’importe quelle version affinée des LDMs, sans nécessiter d’entraînement supplémentaire, permettant une accélération universelle pour diverses tâches de génération d’images.

Si vous cherchez un moyen rapide et facile de générer des images réalistes et diverses à partir de texte ou d’autres entrées, LCM-LoRA est une excellente option à essayer. Vous pouvez trouver plus d’informations et de ressources sur la page du projet et le dépôt GitHub des auteurs.