MPT-30B : le modèle de langage open source qui surpasse GPT-3

par Houssen Moshinaly · Publié 24 juin 2023 · Mis à jour 24 juin 2023

MosaicML présente MPT-30B, un LLM plus puissant que GPT-3 et entraîné sur les GPU NVIDIA H100s. Ce modèle open source offre des performances exceptionnelles en chat, instruction, narration et codage.

Suivez-nous sur notre page Facebook et notre canal Telegram

MPT-30B est le dernier-né de la série Foundation de MosaicML, une entreprise spécialisée dans le développement et le déploiement de modèles de langage à grande échelle. Ce modèle open source, sous licence Apache 2.0, est plus puissant que MPT-7B, son prédécesseur, et surpasse GPT-3, le modèle phare d’OpenAI, sur de nombreux benchmarks.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

MPT-30B est un modèle de langage à grande échelle (LLM) qui peut générer du texte dans différents domaines et formats, tels que le chat, l’instruction, la narration ou le codage. Il a été entraîné sur un mélange de données provenant de dix sources différentes, totalisant 1 téraoctet de tokens. Il se distingue par sa fenêtre de contexte de 8 000 tokens, ce qui lui permet de traiter des séquences plus longues que la plupart des autres LLMs. Il utilise également des techniques d’optimisation telles que ALiBi et FlashAttention pour améliorer ses performances en inférence et en entraînement.

MosaicML a également publié deux variantes affinées de MPT-30B : MPT-30B-Instruct et MPT-30B-Chat. La première est spécialisée dans le suivi d’instructions simples, comme la création d’un CV ou la résolution d’un sudoku. La seconde est capable de mener des conversations multi-tours sur des sujets variés, comme les films ou la politique. Ces modèles sont disponibles sur HuggingFace Spaces, une plateforme qui permet de tester et d’interagir avec des modèles pré-entraînés.

MPT-30B est le premier LLM à être entraîné sur les GPU NVIDIA H100s, les plus puissants du marché. Il a été conçu pour être facilement déployable sur un seul GPU, soit un A100-80GB en précision 16 bits, soit un A100-40GB en précision 8 bits. Cela réduit le coût minimum du système d’inférence par rapport à d’autres LLMs comparables, comme Falcon-40B, qui nécessitent au moins deux GPU.

MosaicML propose plusieurs façons de personnaliser et de déployer MPT-30B via sa plateforme. Les utilisateurs peuvent finetuner le modèle avec leurs propres données privées, ou utiliser les modèles pré-entraînés tels quels. Ils peuvent également accéder aux endpoints hébergés par MosaicML pour MPT-30B-Instruct et MPT-7B-Instruct via une API Python. Enfin, ils peuvent déployer des modèles personnalisés sur le cloud de MosaicML ou dans leur propre VPC privé, en utilisant leur pile d’inférence optimisée.

MosaicML espère que MPT-30B contribuera à démocratiser l’accès aux LLMs et à stimuler l’innovation dans le domaine de l’IA générative. La société invite la communauté à essayer ses modèles et à partager ses retours et ses créations.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊


Le Basilic de Roko	Mon parcours de rédacteur web	Science corrompue et servile	Nous, Tueurs en série

MPT-30B : le modèle de langage open source qui surpasse GPT-3

Mes livres

Laisser un commentaire Annuler la réponse

Les autres actualités dans Technologie

Rejoignez-nous sur Telegram ou Facebook