Stable LM 2 1.6B : un petit géant du langage multilingue

par Houssen Moshinaly · 20 janvier 2024

Stable LM 2 1.6B secoue le monde de l’IA générative avec ses performances bluffantes malgré sa taille modeste de 1,6 milliards de paramètres. Les implications pour les développeurs sont énormes.

Suivez-nous sur notre page Facebook et notre canal Telegram

Stable LM 2 1.6B est un modèle de langage de petite taille doté de 1,6 milliard de paramètres, entraîné sur des données multilingues en anglais, espagnol, allemand, italien, français, portugais et néerlandais.
Ce modèle se distingue par sa compacité et sa rapidité, qui réduisent les contraintes matérielles et permettent à davantage de développeurs de participer à l’écosystème de l’IA générative.
En plus de la version pré-entraînée et adaptée aux instructions, les créateurs du modèle ont publié le dernier point de contrôle avant la phase de refroidissement de l’entraînement. Ils ont également inclus les états de l’optimiseur pour faciliter le réglage fin et l’expérimentation des développeurs. Les détails sur les données seront fournis dans un rapport technique à venir.
Stable LM 2 1.6B peut être utilisé dès maintenant, à des fins commerciales ou non, avec une adhésion à Stability AI. Il est également possible de tester le modèle sur Hugging Face.

Stable LM 2 1.6B est le premier modèle de langage de la nouvelle série Stable LM 2. Il s’agit d’un modèle de base doté de 1,6 milliard de paramètres, ainsi que d’une version adaptée aux instructions. Le modèle de base a été entraîné sur environ 2 billions de jetons pendant deux époques, en intégrant des données multilingues en anglais, espagnol, allemand, italien, français, portugais et néerlandais.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

Les créateurs du modèle ont tiré parti des avancées algorithmiques récentes dans le domaine de la modélisation du langage pour trouver un équilibre favorable entre la vitesse et la performance, permettant une expérimentation et une itération rapides avec des ressources modérées. Les détails sur les données seront également disponibles avec cette publication, afin que la communauté ouverte puisse reproduire des modèles aux performances similaires.

De plus, pour la première fois, les créateurs du modèle ont publié le dernier point de contrôle avant la phase de refroidissement de l’entraînement, y compris les états de l’optimiseur, pour aider les développeurs à poursuivre l’entraînement et le réglage fin de leurs données, car certains modèles pré-entraînés récents peuvent être plus difficiles à affiner en raison des optimisations de fin de parcours. Dans les prochains jours, ils partageront un rapport technique complet qui explorera et décrira le mélange de données et la procédure d’entraînement qu’ils ont suivis.

Performance du modèle

Stable LM 2 1.6B a été comparé à d’autres modèles de langage de petite taille populaires, tels que Phi-1.5 (1,3 milliard) et Phi-2 (2,7 milliards) de Microsoft, TinyLlama 1.1B ou Falcon 1B. Il surpasse les modèles de moins de 2 milliards sur la plupart des tâches, et même certains modèles plus grands, tout en offrant une compacité et une vitesse optimales lorsqu’il est testé avec une performance à quelques coups sur des référentiels généraux décrits dans le classement Open LLM Leaderboard.

Évaluations du classement Open LLM Leaderboard. * Les résultats de Qwen/Qwen-1_8b ne sont pas disponibles pour le moment

Grâce à un entraînement explicite sur du texte multilingue, la performance sur les versions traduites de ARC Challenge, HellaSwag, TruthfulQA, MMLU et LAMBADA montre que Stable LM 2 1.6B dépasse les autres modèles de manière considérable.

Selon les résultats de MT Bench, Stable LM 2 1.6B affiche une performance compétitive, égalant ou même surpassant des modèles nettement plus grands.

En publiant l’un des modèles de langage de petite taille les plus puissants à ce jour et en fournissant une transparence complète sur ses détails d’entraînement, les créateurs du modèle visent à donner aux développeurs et aux créateurs de modèles les moyens d’expérimenter et d’itérer rapidement.

Il est important de noter que, en raison de la nature des modèles de langage de faible capacité, Stable LM 2 1.6B peut également présenter des problèmes courants tels que des taux élevés d’hallucination ou un langage potentiellement toxique. Ils demandent à la communauté de garder cela à l’esprit lorsqu’elle construit ses applications et de prendre les mesures appropriées pour garantir qu’elle développe de manière responsable.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊


Le Basilic de Roko	Mon parcours de rédacteur web	Science corrompue et servile	Nous, Tueurs en série

Stable LM 2 1.6B : un petit géant du langage multilingue

Performance du modèle

Mes livres

Laisser un commentaire Annuler la réponse

Les autres actualités dans Technologie

Rejoignez-nous sur Telegram ou Facebook