Site icon Actualité Houssenia Writing

Fuite d’un modèle d’IA de Mistral: une bénédiction inattendue pour l’open-source ?

Un cercle doré luminescent avec des particules tout autour illustrant la puissance de l'Open Source pour améliorer des modèles LLM comme le miqu-1-70b de Mistral

Les principaux points clés:

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

Fuite d’un modèle Mistral sur la scène open-source

Le modèle d’IA “Miqu-1-70b” fait irruption sur la scène open-source, d’abord publié par “Miqu Dev” sur HuggingFace avant d’être partagé sur 4chan. Arthur Mensch, PDG de Mistral, confirme qu’il s’agit d’une fuite d’un ancien modèle de sa société.

Miqu-1-70b : des performances impressionnantes

Rapidement, la communauté teste le modèle et s’étonne de ses capacités. Il surpasse Mixtral, le modèle open-source le plus puissant de Mistral, dans de nombreux tests. Il rivalise même avec le modèle Mistral Medium le plus performant et, dans un benchmark, bat tous les modèles de langage sauf GPT-4.

Un modèle basé sur Llama-2 et antérieur à Mistral-7B

Après des spéculations, Arthur Mensch confirme que la fuite provient d’un “employé trop enthousiaste” d’un client en accès anticipé. Il s’agit d’une version quantifiée et filigranée d’un ancien modèle basé sur Llama-2 de Meta, développé avant même le lancement du premier modèle de langage de Mistral, Mistral-7B. Certains soupçonnaient Mistral d’avoir volontairement divulgué le modèle après la sortie de Mixtral, son dernier modèle, via torrent.

Mistral ne prévoit pas de suppression et envisage une sortie officielle

La société ne semble pas vouloir faire supprimer le modèle de HuggingFace. Arthur Mensch répond de manière humoristique sur le post HuggingFace, suggérant à l’utilisateur de “considérer l’attribution”. Mistral affirme avoir réalisé des progrès significatifs depuis le développement du modèle divulgué, laissant entrevoir un modèle comparable à GPT-4 avec Mistral-Large.

 

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

Quitter la version mobile