Fuite d’un modèle d’IA de Mistral: une bénédiction inattendue pour l’open-source ?


  • FrançaisFrançais

  • Un modèle d’IA nommé “miqu-1-70b” a été fuité sur HuggingFace et 4chan par un client de Mistral. Il s’agit d’un ancien modèle de la start-up française, basé sur Llama 2 de Meta. Le modèle a montré des performances impressionnantes, surpassant la plupart des modèles de Mistral et rivalisant avec GPT-4.


    Suivez-nous sur notre page Facebook et notre canal Telegram

    Un cercle doré luminescent avec des particules tout autour illustrant la puissance de l'Open Source pour améliorer des modèles LLM comme le miqu-1-70b de Mistral

    Les principaux points clés:

    Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

    • Fuite d’un ancien modèle d’IA de Mistral, baptisé “Miqu-1-70b”, sur HuggingFace et 4chan.
    • Performances surpassent celles de Mixtral, le modèle open-source le plus puissant de Mistral.
    • Il s’agit d’un modèle basé sur Llama-2 de Meta et antérieur à Mistral-7B.
    • Mistral ne prévoit pas de supprimer le modèle de HuggingFace.
    • La société travaille sur un modèle plus performant, Mistral-Large, comparable à GPT-4.

    Fuite d’un modèle Mistral sur la scène open-source

    Le modèle d’IA “Miqu-1-70b” fait irruption sur la scène open-source, d’abord publié par “Miqu Dev” sur HuggingFace avant d’être partagé sur 4chan. Arthur Mensch, PDG de Mistral, confirme qu’il s’agit d’une fuite d’un ancien modèle de sa société.

    Miqu-1-70b : des performances impressionnantes

    Rapidement, la communauté teste le modèle et s’étonne de ses capacités. Il surpasse Mixtral, le modèle open-source le plus puissant de Mistral, dans de nombreux tests. Il rivalise même avec le modèle Mistral Medium le plus performant et, dans un benchmark, bat tous les modèles de langage sauf GPT-4.

    Un modèle basé sur Llama-2 et antérieur à Mistral-7B

    Après des spéculations, Arthur Mensch confirme que la fuite provient d’un “employé trop enthousiaste” d’un client en accès anticipé. Il s’agit d’une version quantifiée et filigranée d’un ancien modèle basé sur Llama-2 de Meta, développé avant même le lancement du premier modèle de langage de Mistral, Mistral-7B. Certains soupçonnaient Mistral d’avoir volontairement divulgué le modèle après la sortie de Mixtral, son dernier modèle, via torrent.

    Mistral ne prévoit pas de suppression et envisage une sortie officielle

    La société ne semble pas vouloir faire supprimer le modèle de HuggingFace. Arthur Mensch répond de manière humoristique sur le post HuggingFace, suggérant à l’utilisateur de “considérer l’attribution”. Mistral affirme avoir réalisé des progrès significatifs depuis le développement du modèle divulgué, laissant entrevoir un modèle comparable à GPT-4 avec Mistral-Large.

     

    Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

    Houssen Moshinaly

    Rédacteur en chef d'Actualité Houssenia Writing. Rédacteur web depuis 2009.

    Blogueur et essayiste, j'ai écrit 9 livres sur différents sujets comme la corruption en science, les singularités technologiques ou encore des fictions. Je propose aujourd'hui des analyses politiques et géopolitiques sur le nouveau monde qui arrive. J'ai une formation de rédaction web et une longue carrière de prolétaire.

    Pour me contacter personnellement :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *