Fuite d’un modèle d’IA de Mistral: une bénédiction inattendue pour l’open-source ?
Un modèle d’IA nommé “miqu-1-70b” a été fuité sur HuggingFace et 4chan par un client de Mistral. Il s’agit d’un ancien modèle de la start-up française, basé sur Llama 2 de Meta. Le modèle a montré des performances impressionnantes, surpassant la plupart des modèles de Mistral et rivalisant avec GPT-4.
Suivez-nous sur notre page Facebook et notre canal Telegram
Les principaux points clés:
Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊
- Fuite d’un ancien modèle d’IA de Mistral, baptisé “Miqu-1-70b”, sur HuggingFace et 4chan.
- Performances surpassent celles de Mixtral, le modèle open-source le plus puissant de Mistral.
- Il s’agit d’un modèle basé sur Llama-2 de Meta et antérieur à Mistral-7B.
- Mistral ne prévoit pas de supprimer le modèle de HuggingFace.
- La société travaille sur un modèle plus performant, Mistral-Large, comparable à GPT-4.
Sommaire
Fuite d’un modèle Mistral sur la scène open-source
Le modèle d’IA “Miqu-1-70b” fait irruption sur la scène open-source, d’abord publié par “Miqu Dev” sur HuggingFace avant d’être partagé sur 4chan. Arthur Mensch, PDG de Mistral, confirme qu’il s’agit d’une fuite d’un ancien modèle de sa société.
Miqu-1-70b : des performances impressionnantes
Rapidement, la communauté teste le modèle et s’étonne de ses capacités. Il surpasse Mixtral, le modèle open-source le plus puissant de Mistral, dans de nombreux tests. Il rivalise même avec le modèle Mistral Medium le plus performant et, dans un benchmark, bat tous les modèles de langage sauf GPT-4.
Un modèle basé sur Llama-2 et antérieur à Mistral-7B
Après des spéculations, Arthur Mensch confirme que la fuite provient d’un “employé trop enthousiaste” d’un client en accès anticipé. Il s’agit d’une version quantifiée et filigranée d’un ancien modèle basé sur Llama-2 de Meta, développé avant même le lancement du premier modèle de langage de Mistral, Mistral-7B. Certains soupçonnaient Mistral d’avoir volontairement divulgué le modèle après la sortie de Mixtral, son dernier modèle, via torrent.
Mistral ne prévoit pas de suppression et envisage une sortie officielle
La société ne semble pas vouloir faire supprimer le modèle de HuggingFace. Arthur Mensch répond de manière humoristique sur le post HuggingFace, suggérant à l’utilisateur de “considérer l’attribution”. Mistral affirme avoir réalisé des progrès significatifs depuis le développement du modèle divulgué, laissant entrevoir un modèle comparable à GPT-4 avec Mistral-Large.
Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊