ByteDance fait parler les textes en vidéo avec MagicVideo-V2

Houssen Moshinaly

il y a 4 mois

Les chercheurs de Bytedance ont mis au point MagicVideo-V2, un nouveau modèle d’IA générative pour la génération de texte à vidéo (T2V) qui surpasserait les autres systèmes T2V existants tels que Runways Gen-2, Pika 1.0, Morph, Moon Valley ou Stable Video Diffusion.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

Selon l’équipe, MagicVideo-V2 se distingue des modèles T2V existants par l’intégration de plusieurs modules qui travaillent ensemble pour produire des vidéos de haute qualité. L’équipe combine des modules de texte à image (T2I), d’image à vidéo (I2V), de vidéo à vidéo (V2V) et d’interpolation de trames vidéo (VFI) dans une seule architecture.

Le module T2I génère une image initiale à partir du texte d’entrée comme base pour la génération vidéo ultérieure. Le module I2V utilise ensuite l’image comme entrée et fournit des images clés de basse résolution de la vidéo générée. Le module V2V augmente la résolution des images clés et améliore leur niveau de détail. Enfin, le module VFI interpole et lisse le mouvement dans la vidéo.

Selon les chercheurs, MagicVideo-V2 peut générer des vidéos de haute résolution de 1 048 par 1 048 pixels qui correspondent aux textes d’entrée et surpasserait les autres modèles d’IA génératifs pour la vidéo. Dans un test à l’aveugle avec près de 60 participants humains, les vidéos de MagicVideo-V2 ont été préférées plus souvent, écrit l’équipe. L’équipe attribue les meilleurs résultats à l’intégration des modules dans un seul modèle, plutôt qu’à la connexion de plusieurs modèles un à un.

Les résultats de MagicVideo-V2 sont nettement meilleurs que ceux de la première version, que la société a présentée à la fin de 2022. ByteDance a récemment introduit MagicAnimate, une sorte de générateur de TikTok, développe une plateforme ouverte pour les chatbots et explore également les modèles de texte à 3D avec MVDream.

Les chercheurs prévoient d’améliorer encore MagicVideo-V2 dans le futur pour rajouter encore plus de détails et permettent des vidéos plus longues. On peut trouver les démos et les explications sur la page officielle.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊


Le Basilic de Roko	Mon parcours de rédacteur web	Science corrompue et servile	Nous, Tueurs en série

Mes livres