Runway Gen 2 : l’IA qui transforme le texte en vidéo

Houssen Moshinaly

il y a 1 an

Découvrez Runway Gen 2, le modèle de texte à vidéo qui vous permet de créer des vidéos réalistes avec quelques mots. Apprenez comment utiliser ses fonctionnalités d’édition pour personnaliser vos vidéos.

Runway Gen 2 est un modèle de génération de vidéo basé sur le texte qui permet aux utilisateurs de créer des vidéos réalistes à partir de simples descriptions écrites. Le modèle utilise une architecture Transformer pour encoder le texte en une représentation latente qui est ensuite décodée en une séquence d’images par un réseau génératif adversaire (GAN). Le résultat est une vidéo synthétique qui correspond au contenu et au style du texte.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

Le modèle offre également des fonctionnalités d’édition qui permettent aux utilisateurs de modifier la vidéo générée en changeant le texte, la durée, la résolution ou le cadre temporel. Par exemple, il est possible d’ajouter ou de supprimer des scènes, de changer la couleur ou la forme des objets, ou encore de modifier l’angle ou la perspective de la caméra. Ces fonctionnalités offrent une grande flexibilité et créativité aux utilisateurs qui peuvent créer des vidéos personnalisées selon leurs besoins et leurs envies.

Runway Gen 2 est le successeur de Runway ML, un outil en ligne qui permettait déjà de générer des vidéos à partir de texte, mais avec des limitations importantes. Runway ML utilisait un modèle pré-entraîné sur un ensemble limité de catégories (comme les animaux, les paysages ou les personnes) et ne pouvait pas produire des vidéos avec une haute résolution ou une longue durée. Runway Gen 2 utilise un nouveau modèle entraîné sur un ensemble plus large et diversifié de données (plus de 100 millions d’images et plus d’un million de vidéos) et peut générer des vidéos avec une résolution allant jusqu’à 1024×1024 pixels et une durée allant jusqu’à 30 secondes.

Runway Gen est actuellement disponible pour des testeurs via une liste d’attente sur Discord (ça concerne Gen 1, mais Gen 2 ne saurait tarder). Runway Gen 2 est un exemple impressionnant du potentiel de l’intelligence artificielle pour la création audiovisuelle. Le modèle offre aux utilisateurs la possibilité de transformer leurs idées en vidéos réalistes sans avoir besoin d’équipement ou de compétences techniques. Il ouvre également la voie à de nouvelles formes d’expression artistique, d’éducation, de divertissement ou encore de communication.

Maintenant que Stable Diffusion et Midjourney sont devenus très performants, l’IA s’attaque désormais à la vidéo. Runway a de l’avance, mais c’est une solution propriétaire. Vous avez aussi des solutions Open Source comme ModelScope qui commencent à débarquer. Ce dernier n’est pas parfait, car dans les vidéos, on voit constamment des watermarks de Shutterstock, comme s’il n’y a pas suffisamment de vidéos dans le domaine public pour qu’on donne des munitions aux ayants-droits.

Quand Dall-E est apparu, les images étaient effroyables et c’était il y a à peine 1 an. Ces IA de text to video ne vont pas rivaliser avec Hollywood, mais je parie qu’elles pourront le faire dans moins d’un an…

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊


Le Basilic de Roko	Mon parcours de rédacteur web	Science corrompue et servile	Nous, Tueurs en série

Mes livres