MPT-30B : le modèle de langage open source qui surpasse GPT-3


  • FrançaisFrançais

  • MosaicML présente MPT-30B, un LLM plus puissant que GPT-3 et entraîné sur les GPU NVIDIA H100s. Ce modèle open source offre des performances exceptionnelles en chat, instruction, narration et codage.


    Suivez-nous sur notre page Facebook et notre canal Telegram

    MosaicML présente MPT-30B, un LLM plus puissant que GPT-3 et entraîné sur les GPU NVIDIA H100s. Ce modèle open source offre des performances exceptionnelles en chat, instruction, narration et codage.

    MPT-30B est le dernier-né de la série Foundation de MosaicML, une entreprise spécialisée dans le développement et le déploiement de modèles de langage à grande échelle. Ce modèle open source, sous licence Apache 2.0, est plus puissant que MPT-7B, son prédécesseur, et surpasse GPT-3, le modèle phare d’OpenAI, sur de nombreux benchmarks.

    Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

    MPT-30B est un modèle de langage à grande échelle (LLM) qui peut générer du texte dans différents domaines et formats, tels que le chat, l’instruction, la narration ou le codage. Il a été entraîné sur un mélange de données provenant de dix sources différentes, totalisant 1 téraoctet de tokens. Il se distingue par sa fenêtre de contexte de 8 000 tokens, ce qui lui permet de traiter des séquences plus longues que la plupart des autres LLMs. Il utilise également des techniques d’optimisation telles que ALiBi et FlashAttention pour améliorer ses performances en inférence et en entraînement.

    MosaicML a également publié deux variantes affinées de MPT-30B : MPT-30B-Instruct et MPT-30B-Chat. La première est spécialisée dans le suivi d’instructions simples, comme la création d’un CV ou la résolution d’un sudoku. La seconde est capable de mener des conversations multi-tours sur des sujets variés, comme les films ou la politique. Ces modèles sont disponibles sur HuggingFace Spaces, une plateforme qui permet de tester et d’interagir avec des modèles pré-entraînés.

    MPT-30B est le premier LLM à être entraîné sur les GPU NVIDIA H100s, les plus puissants du marché. Il a été conçu pour être facilement déployable sur un seul GPU, soit un A100-80GB en précision 16 bits, soit un A100-40GB en précision 8 bits. Cela réduit le coût minimum du système d’inférence par rapport à d’autres LLMs comparables, comme Falcon-40B, qui nécessitent au moins deux GPU.

    MosaicML propose plusieurs façons de personnaliser et de déployer MPT-30B via sa plateforme. Les utilisateurs peuvent finetuner le modèle avec leurs propres données privées, ou utiliser les modèles pré-entraînés tels quels. Ils peuvent également accéder aux endpoints hébergés par MosaicML pour MPT-30B-Instruct et MPT-7B-Instruct via une API Python. Enfin, ils peuvent déployer des modèles personnalisés sur le cloud de MosaicML ou dans leur propre VPC privé, en utilisant leur pile d’inférence optimisée.

    MosaicML espère que MPT-30B contribuera à démocratiser l’accès aux LLMs et à stimuler l’innovation dans le domaine de l’IA générative. La société invite la communauté à essayer ses modèles et à partager ses retours et ses créations.

    Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

    Houssen Moshinaly

    Rédacteur en chef d'Actualité Houssenia Writing. Rédacteur web depuis 2009.

    Blogueur et essayiste, j'ai écrit 9 livres sur différents sujets comme la corruption en science, les singularités technologiques ou encore des fictions. Je propose aujourd'hui des analyses politiques et géopolitiques sur le nouveau monde qui arrive. J'ai une formation de rédaction web et une longue carrière de prolétaire.

    Pour me contacter personnellement :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *