Fuite d’un modèle d’IA de Mistral: une bénédiction inattendue pour l’open-source ?

Houssen Moshinaly

il y a 3 mois

Un cercle doré luminescent avec des particules tout autour illustrant la puissance de l'Open Source pour améliorer des modèles LLM comme le miqu-1-70b de Mistral

Les principaux points clés:

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

Fuite d’un ancien modèle d’IA de Mistral, baptisé “Miqu-1-70b”, sur HuggingFace et 4chan.
Performances surpassent celles de Mixtral, le modèle open-source le plus puissant de Mistral.
Il s’agit d’un modèle basé sur Llama-2 de Meta et antérieur à Mistral-7B.
Mistral ne prévoit pas de supprimer le modèle de HuggingFace.
La société travaille sur un modèle plus performant, Mistral-Large, comparable à GPT-4.

Sommaire

1 Fuite d’un modèle Mistral sur la scène open-source
2 Miqu-1-70b : des performances impressionnantes
3 Un modèle basé sur Llama-2 et antérieur à Mistral-7B
4 Mistral ne prévoit pas de suppression et envisage une sortie officielle

Fuite d’un modèle Mistral sur la scène open-source

Le modèle d’IA “Miqu-1-70b” fait irruption sur la scène open-source, d’abord publié par “Miqu Dev” sur HuggingFace avant d’être partagé sur 4chan. Arthur Mensch, PDG de Mistral, confirme qu’il s’agit d’une fuite d’un ancien modèle de sa société.

Miqu-1-70b : des performances impressionnantes

Rapidement, la communauté teste le modèle et s’étonne de ses capacités. Il surpasse Mixtral, le modèle open-source le plus puissant de Mistral, dans de nombreux tests. Il rivalise même avec le modèle Mistral Medium le plus performant et, dans un benchmark, bat tous les modèles de langage sauf GPT-4.

Un modèle basé sur Llama-2 et antérieur à Mistral-7B

Après des spéculations, Arthur Mensch confirme que la fuite provient d’un “employé trop enthousiaste” d’un client en accès anticipé. Il s’agit d’une version quantifiée et filigranée d’un ancien modèle basé sur Llama-2 de Meta, développé avant même le lancement du premier modèle de langage de Mistral, Mistral-7B. Certains soupçonnaient Mistral d’avoir volontairement divulgué le modèle après la sortie de Mixtral, son dernier modèle, via torrent.

Mistral ne prévoit pas de suppression et envisage une sortie officielle

La société ne semble pas vouloir faire supprimer le modèle de HuggingFace. Arthur Mensch répond de manière humoristique sur le post HuggingFace, suggérant à l’utilisateur de “considérer l’attribution”. Mistral affirme avoir réalisé des progrès significatifs depuis le développement du modèle divulgué, laissant entrevoir un modèle comparable à GPT-4 avec Mistral-Large.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊


Le Basilic de Roko	Mon parcours de rédacteur web	Science corrompue et servile	Nous, Tueurs en série

Fuite d’un modèle Mistral sur la scène open-source

Miqu-1-70b : des performances impressionnantes

Un modèle basé sur Llama-2 et antérieur à Mistral-7B

Mistral ne prévoit pas de suppression et envisage une sortie officielle

Mes livres