Zeroscope, une IA qui crée des vidéos gratuite et Open Source


  • FrançaisFrançais

  • Découvrez Zeroscope, un modèle d’intelligence artificielle gratuit et open-source qui vous permet de créer des vidéos de haute qualité à partir de descriptions textuelles. Zeroscope est basé sur Modelscope, un modèle multilingue de diffusion de texte à vidéo.


    Suivez-nous sur notre page Facebook et notre canal Telegram

    Découvrez Zeroscope, un modèle d’intelligence artificielle gratuit et open-source qui vous permet de créer des vidéos de haute qualité à partir de descriptions textuelles. Zeroscope est basé sur Modelscope, un modèle multilingue de diffusion de texte à vidéo.

    Un développeur indépendant a créé Zeroscope, un modèle d’intelligence artificielle capable de produire des vidéos de haute qualité à partir de descriptions textuelles. Zeroscope est basé sur Modelscope, un modèle de diffusion de texte à vidéo multilingue avec 1,7 milliard de paramètres. Zeroscope améliore ce concept en offrant une résolution plus élevée, sans le filigrane Shutterstock, et plus proche d’un format 16:9.

    Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

    Zeroscope se compose de deux composants : Zeroscope_v2 et 567w, conçu pour la création rapide de contenu vidéo en résolution de 576 x 320 pixels pour explorer des concepts vidéo. Les vidéos de qualité peuvent ensuite être mises à l’échelle en une résolution “haute définition” de 1024×576 pixels en utilisant zeroscope_v2 XL.

    Pour la génération de vidéos, le modèle nécessite 7,9 Go de VRam à une résolution de 576 x 320 pixels avec un taux d’images par seconde de 30 images par seconde et 15,3 Go de VRam à une résolution de 1024×576 pixels au même taux d’images par seconde. Par conséquent, le modèle plus petit devrait fonctionner sur de nombreuses cartes graphiques standard.

    L’entraînement de Zeroscope a impliqué l’application d’un bruit décalé à 9 923 clips et 29 769 images étiquetées, chacune comprenant 24 images. Le bruit décalé peut impliquer des déplacements aléatoires d’objets dans les images vidéo, des changements légers dans les timings des images ou des distorsions mineures.

    Cette introduction du bruit pendant l’entraînement améliore la compréhension du modèle de la distribution des données. En conséquence, le modèle peut générer une gamme plus diversifiée de vidéos réalistes, et interpréter plus efficacement les variations dans les descriptions textuelles.

    Zeroscope pourrait-il être une concurrence open-source pour Runway ? Selon le développeur de Zeroscope “Cerspense”, qui a de l’expérience avec Modelscope, il n’est pas “super difficile” d’affiner un modèle avec 24 Go de VRam. Il a supprimé les filigranes Modelscope pendant le processus d’affinage.

    Il décrit son modèle comme “conçu pour affronter Gen-2”, le modèle commercial de texte à vidéo proposé par Runway ML. Selon Cerspense, Zeroscope est entièrement gratuit pour un usage public.

    Les deux modèles 567w et Zeroscope v2 XL peuvent être téléchargés gratuitement sur Hugging Face, qui propose également des instructions sur la façon de les utiliser. Une version de Zeroscope sur Colab comprenant un tutoriel est aussi disponible.

    L’IA de texte to vidéo pourrait-elle évoluer aussi rapidement que celle du texte à l’image ?

    Le texte à la vidéo est encore à ses débuts. Les clips générés par l’IA sont généralement très courts et présentent de nombreux défauts visuels. Cependant, les modèles d’image IA ont initialement rencontré des problèmes similaires mais ont atteint le photoréalisme en quelques mois. Mais contrairement à ces modèles, la génération vidéo est beaucoup plus gourmande en ressources, tant pour l’entraînement que pour la génération.

    Google a déjà dévoilé Phenaki et Imagen Video, deux modèles de texte à vidéo capables de générer des clips haute résolution, plus longs, logiquement cohérents, mais ils ne sont pas encore sortis. Le Make-a-Video de Meta, un modèle de texte à vidéo, reste également inédit.

    Actuellement, seul Gen-2 de Runway est disponible commercialement, et il est maintenant disponible sur l’iPhone. Zeroscope marque l’avènement du premier modèle open-source de haute qualité.

    Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

    Houssen Moshinaly

    Rédacteur en chef d'Actualité Houssenia Writing. Rédacteur web depuis 2009.

    Blogueur et essayiste, j'ai écrit 9 livres sur différents sujets comme la corruption en science, les singularités technologiques ou encore des fictions. Je propose aujourd'hui des analyses politiques et géopolitiques sur le nouveau monde qui arrive. J'ai une formation de rédaction web et une longue carrière de prolétaire.

    Pour me contacter personnellement :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *