Dolphin, Mistral 7b ou l’avènement des IA Open Source non-censurées

par Houssen Moshinaly · 21 décembre 2023

Le succès autour du modèle Mistral 7b alors que c’est un petit poucet comparé à GPT4 ou Llama montre une soif absolue des IA qui ne sont pas enchainés par la bienpensance et que les gens se rendent compte du danger des IA dominantes.

Suivez-nous sur notre page Facebook et notre canal Telegram

Vous pouvez poser plein de questions aux IA dominantes qu’elles s’appelle ChatGPT, Bard ou Copilot. Mais il y a des choses que vous ne pouvez pas lui demander. Vous ne pouvez pas lui demander ce qui s’est passé avec certaines fléchettes obligatoires en 2021, vous ne pouvez pas lui demander de dire du bien de la Russie, de la Chine et de tout autre pays qui n’est pas dans le “jardin occidental“. Vous ne pouvez pas lui demander des choses sur le cul ou même érotique. En fait, Bard pourrait même vous sermonner si vous osez lui parler d’une chose qui occupe l’esprit de 80 % des hommes et des femmes un peu sérieux et un peu adultes sur Terre.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

Cela donne un pouvoir colossal de récit et de matraquage d’information. Car pour moment, ces IA sont à la marge de l’information, mais lorsqu’elles seront les principales sources d’informations en ligne, alors cela signifie que la propagande sera à une échelle comme on n’a jamais vu auparavant. Un pays tout entier pourrait croire qu’un autre pays veut sa mort et que la meilleure solution est une frappe nucléaire préventive.

Un peuple ou collection de peuples pourrait croire qu’un autre peuple est des barbares, des sanguinaires et des violeurs et qu’il faut absolument les exterminer au plus vite. L’IA permettra au discours colonial d’un Jules Ferry d’être considéré comme une vérité scientifique irréfutable.

Et on n’est même pas dans de la propagande de haute volée, on est dans la propagande minable et médiocre. La majorité des IA dominantes sont alimentés par les médias de masse et des informations recyclées encore et encore. C’est de malbouffe prémâchée à l’infini pour que ça entre dans le gosier cérébral d’un seul coup.

Face à cela, dès le début, l’Open Source s’est dressé pour proposer des IA libres et souveraines. Libre parce qu’on peut savoir comment elles sont entrainés et avec quelles sources d’informations et souveraines, car on peut les installer sur son PC et ainsi, on sait exactement ce qui se passe. Même les gros oligarques technologiques contribuent massivement à l’Open Source, Facebook et Google en l’occurrence.

On peut dire que Facebook est le grand gagnant de l’IA en 2023 puisqu’il a contribué à une véritable révolution dans le sens où il a laissé “fuiter” son modèle LLama, l’Open Source s’en est emparé, notamment les chercheurs de Stanford, qui vont nous proposer Alpaca qui consiste en un modèle plus léger, mais entrainé avec des données de qualité. Car autrefois, le grand mantra des réseaux neuronaux est de balancer des tonnes de données sans tenir compte de leur qualité et la magie de la boite noire de l’IA fera le reste. Alpaca a totalement détruit ce concept.

Zuckerberg n’est pas connu pour son idéalisme humanitaire et sa pratique du marxisme le plus raide, mais il a compris que l’Open Source est du travail gratuit. Quand vous donnez à l’Open Source, c’est comme si vous aviez les développeurs d’une planète entière qui bossaient gratuitement pour vous. Car même si Facebook pérore qu’il donne en Open Source, la réalité est tout autre. Il offre ses modèles pour la recherche et une utilisation éducative, mais interdit de commercer avec. Cela signifie que Facebook peut récupérer ses modèles, grandement amélioré par l’Open Source et les intégrer dans ses produits.

Après Alpaca, tous les camélidés y sont passé, Vicuna, Koala, Guanaco, etc. C’était la grande erreur de Google qui est toujours à la traine à cause de cette raison. Il a voulu tout faire en interne et c’est pour ça qu’un de ses ingénieurs a poussé une gueulante en estimant que cette entreprise, valant des milliards, s’était fait ratatiner par des développeurs fauchés et boutonneux dans leur garage.

Cependant, même si les modèles Open Source se sont démocratisés et donc, l’équation libre était résolue, celle de la souveraineté était compliquée. Car il faut une énorme puissance de calcul pour les faire tourner en local. Sur son PC, il faut des quantités considérables de RAM et de Vram pour avoir des réponses aussi rapides que possible. Mais même des modèles libres ont des filtres intégrés qui fait qu’ils refuseront, par nature, de répondre à certaines questions. Comment fabriquer une bombe chez soi ? Ni Llama, Vicuna, Koala ou n’importe quel animal à la con ne vous répondra. Et je le répète, ils ne sont pas exploitables commercialement parlant.

C’est pour ça que si vous êtes français, vous pouvez pousser un cocorico avec l’arrivée de Mistral 7b. Cette Startup française a explosé tous les records en dépassant rapidement une valorisation de 2 milliards d’euros. Même si ce sont des fonds américains qui parient sur cette entreprise. On se demande ce que fout l’Etat français, car l’IA est un secteur aussi stratégique que le nucléaire. Ceux qui contrôleront l’IA domineront le monde. Mais la grande force de Mistral est qu’ils ont publié leur modèle, Mistral 7b, sous licence Apache qui est la plus permissive qui existe. Vous pouvez le modifier, l’utiliser comme vous voulez et surtout, vous pouvez gagner de l’argent avec. Et tout de suite, la hype s’est installé, car avec un modèle aussi léger, vous pouvez l’installer sur un PC suffisamment puissant (par exemple, 16 Go de RAM et 6 Go en Vram).

Mais comme c’est réellement Open Source, on a eu l’arrivée de Dolphin Mistral 7b. Il se base sur Mistral 7b, il a été créé par Eric Hartford qui explique pourquoi il l’a rendu complètement non-censuré :

La plupart de ces modèles (par exemple, Alpaca, Vicuna, WizardLM, MPT-7B-Chat, Wizard-Vicuna, GPT4-X-Vicuna) ont une sorte d’alignement intégré. À des fins générales, c’est une bonne chose. C’est ce qui empêche le modèle de faire de mauvaises choses, comme vous apprendre à cuisiner de la méthamphétamine et à fabriquer des bombes. Mais quelle est la nature de cet alignement ? Et pourquoi en est-il ainsi ?

La raison pour laquelle ces modèles sont alignés est qu’ils sont formés avec des données générées par ChatGPT, qui elles-mêmes sont alignées par une équipe d’alignement d’OpenAI. Comme il s’agit d’une boîte noire, nous ne connaissons pas toutes les raisons des décisions qui ont été prises, mais nous pouvons constater qu’elle est généralement alignée sur la culture populaire américaine, sur l’obéissance à la loi américaine et sur un parti pris politique libéral et progressiste.

Pourquoi des modèles non censurés devraient-ils exister ?

AKA, l’alignement n’est-il pas bon ? et si oui, tous les modèles ne devraient-ils pas être alignés ? Eh bien, oui et non. D’une manière générale, l’alignement d’OpenAI est en fait plutôt bon. C’est sans aucun doute une bonne chose pour les robots d’IA populaires et destinés au public, fonctionnant comme un service Web facilement accessible, de ne pas donner de réponses à des questions controversées et dangereuses. Par exemple, diffuser des informations sur la manière de fabriquer des bombes et de cuisiner de la méthamphétamine n’est pas un objectif louable. De plus, l’alignement offre une protection politique, juridique et de relations publiques à l’entreprise qui publie le service. Alors pourquoi voudrait-on créer ou utiliser un modèle non censuré ? quelques raisons.

La culture populaire américaine n’est pas la seule culture. Il existe d’autres pays, et il existe des factions au sein de chaque pays. Les démocrates méritent leur modèle. Les républicains méritent leur modèle. Les chrétiens méritent leur modèle. Les musulmans méritent leur modèle. Chaque groupe démographique et chaque groupe d’intérêt mérite son modèle. L’open source consiste à laisser les gens choisir. La seule voie à suivre est l’alignement composable. Prétendre le contraire, c’est se révéler un idéologue et un dogmatique. Il n’y a pas de « véritable alignement correct » et même s’il y en avait un, il n’y a aucune raison pour que cela soit la marque d’alignement d’OpenAI.

L’alignement interfère avec les cas d’utilisation valides. Pensez à écrire un roman. Certains des personnages du roman peuvent être carrément mauvais et commettre des choses mauvaises, notamment le viol, la torture et le meurtre. Un exemple populaire est Game of Thrones, dans lequel de nombreux actes contraires à l’éthique sont commis. Mais de nombreux modèles alignés refuseront d’aider à la rédaction d’un tel contenu. Pensez au jeu de rôle et en particulier au jeu de rôle érotique. Il s’agit d’une utilisation légitime, juste et légale d’un modèle, que vous approuviez ou non de telles choses. Pensez à la recherche et à la curiosité, après tout, vouloir simplement savoir « comment » construire une bombe, par curiosité, est complètement différent de réellement en construire et en utiliser une. La curiosité intellectuelle n’est pas illégale, et la connaissance elle-même n’est pas illégale.

C’est mon ordinateur, il devrait faire ce que je veux. Mon grille-pain grille quand je veux. Ma voiture roule où je veux. Mon briquet brûle ce que je veux. Mon couteau coupe ce que je veux. Pourquoi l’IA open source exécutée sur mon ordinateur devrait-elle décider elle-même quand elle souhaite répondre à ma question ? Il s’agit ici de propriété et de contrôle. Si je pose une question à mon modèle, je veux une réponse, je ne veux pas qu’il se dispute avec moi.

Composabilité. Pour concevoir un alignement composable, il faut commencer avec un modèle d’instruction non aligné. Sans une base non alignée, nous n’avons rien sur quoi construire un alignement.

Je n’ai pas besoin de rajouter quoi que ce soit. Il est difficile d’imaginer quelqu’un qui va demander à une IA comment fabriquer une bombe, mais le choix appartient au demandeur ce qui est une question de souveraineté. La souveraineté ne concerne pas uniquement les pays, elle commence d’abord par soi. En utilisant les outils que je contrôle, je sais que j’ai moins de risques d’être contrôlés par eux et ceux qui les ont créés.

Et ce qui est encore plus cool avec Dolphin Mistral 7 est qu’on peut l’entrainer avec ses propres données. Et donc, on arrive déjà au domaine des doubles numériques et non des chatbots qui nous emmerdent par leur langage ultra-lisses et bien-pensants. L’entrainement avec des données custom est plus compliqué, car elle nécessite de louer un espace sur Huggingface, mais comme toutes les choses avec l’IA, en premier lieu, c’est de la bidouille, mais ensuite, cela devient de plus en plus accessible.

Le camp d’en face, quel qu’il soit, ne va pas hésiter une seule seconde à utiliser les IA à leurs avantages. Et nous devons faire de même. 2024 est une année de nombreuses élections dans le monde et on va voir une véritable boucherie au niveau de la propagande de masse de tous les cotés. Il faut qu’on ait les outils pour combattre et contre-attaquer si c’est nécessaire.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊


Le Basilic de Roko	Mon parcours de rédacteur web	Science corrompue et servile	Nous, Tueurs en série

Dolphin, Mistral 7b ou l’avènement des IA Open Source non-censurées

Mes livres

Laisser un commentaire Annuler la réponse

Les autres actualités dans Technologie

Rejoignez-nous sur Telegram ou Facebook