Comment Mistral AI impressionne avec Mixtral, un modèle de Mixture of Experts

par Houssen Moshinaly · Publié 22 décembre 2023 · Mis à jour 21 décembre 2023

Mistral AI nous propose Mixtral, un modèle d’IA qui combine les talents de 8 experts, chacun ayant une spécialité différente. Mixtral est un modèle ouvert, sous licence Apache 2.0, qui égale ou dépasse GPT3.5 et Llama 2 70B sur la plupart des benchmarks.

Suivez-nous sur notre page Facebook et notre canal Telegram

Mistral AI continue de faire parler de lui en cette fin d’année. Il y a quelques jours, on a eu l’arrivée de Mixtral 8x7B, un modèle de Mixture of Experts sparse (SMoE) de haute qualité, avec des poids ouverts. Sous licence Apache 2.0, Mixtral surpasse Llama 2 70B sur la plupart des benchmarks, avec une inférence 6 fois plus rapide.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

C’est le modèle le plus puissant avec une licence permissive et le meilleur modèle en termes de compromis coût/performance. En particulier, il égale ou dépasse GPT3.5 sur la plupart des benchmarks standards.

Mixtral a les capacités suivantes :

Il gère élégamment un contexte de 32k tokens.
Il traite l’anglais, le français, l’italien, l’allemand et l’espagnol.
Il montre de fortes performances en génération de code.
Il peut être affiné en un modèle qui suit les instructions et qui atteint un score de 8.3 sur MT-Bench.

Sommaire

1 Repousser la frontière des modèles ouverts avec des architectures sparses
2 Qu’est-ce qu’un Mixture of Experts dans l’IA ?

Repousser la frontière des modèles ouverts avec des architectures sparses

Mixtral est un réseau de Mixture of Experts sparse. C’est un modèle qui ne décode que là où le bloc feedforward choisit parmi un ensemble de 8 groupes distincts de paramètres. À chaque couche, pour chaque token, un réseau de routage choisit deux de ces groupes (les “experts”) pour traiter le token et combiner leur sortie de manière additive.

Cette technique augmente le nombre de paramètres d’un modèle tout en contrôlant le coût et la latence, car le modèle n’utilise qu’une fraction de l’ensemble total des paramètres par token. Concrètement, Mixtral a 46.7B de paramètres totaux mais n’utilise que 12.9B de paramètres par token. Il traite donc l’entrée et génère la sortie à la même vitesse et pour le même coût qu’un modèle de 12.9B.

Mixtral est pré-entraîné sur des données extraites du Web ouvert avec un entrainement des experts et des routeurs simultanément.

Performance

Nous comparons Mixtral à la famille Llama 2 et au modèle de base GPT3.5. Mixtral égale ou dépasse Llama 2 70B, ainsi que GPT3.5, sur la plupart des benchmarks.

Aperçu des performances

Sur la figure suivante, nous mesurons le compromis qualité/budget d’inférence. Mistral 7B et Mixtral 8x7B appartiennent à une famille de modèles très efficaces par rapport aux modèles Llama 2.

Évolution des performances

Le tableau suivant donne des résultats détaillés sur la figure ci-dessus.

Hallucination et biais. Pour identifier les éventuels défauts à corriger par un affinage/un modelage des préférences, nous mesurons la performance du modèle de base sur BBQ/BOLD. Par rapport à Llama 2, Mixtral présente moins de biais sur le benchmark BBQ. Globalement, Mixtral affiche des sentiments plus positifs que Llama 2 sur BOLD, avec des variances similaires dans chaque dimension.

Langue. Mixtral 8x7B maîtrise le français, l’allemand, l’espagnol, l’italien et l’anglais.

Modèles instruits

Mixtral 8x7B Instruct est également dispo en même temps que Mixtral 8x7B. Ce modèle a été optimisé par un affinage supervisé et une optimisation directe des préférences (DPO) pour suivre attentivement les instructions. Sur MT-Bench, il atteint un score de 8.30, ce qui en fait le meilleur modèle open-source, avec une performance comparable à GPT3.5.

Qu’est-ce qu’un Mixture of Experts dans l’IA ?

Un Mixture of Experts (MoE) est une technique d’IA qui consiste à combiner les compétences de plusieurs modèles spécialisés dans des tâches différentes. L’idée est de profiter de la diversité et de la complémentarité des experts pour obtenir un modèle global plus performant et plus adaptable.

Pour comprendre le principe d’un MoE, on peut utiliser la métaphore d’une équipe de football. Chaque joueur a un rôle et des capacités spécifiques : le gardien de but, le défenseur, le milieu de terrain, l’attaquant, etc. L’équipe fonctionne mieux quand chaque joueur fait ce qu’il sait faire de mieux, et quand ils se coordonnent entre eux pour atteindre l’objectif commun : marquer des buts et encaisser le moins possible.

De la même manière, un MoE est composé de plusieurs modèles d’IA, appelés experts, qui ont chacun une spécialité : traiter le langage, reconnaître les images, générer du code, etc. Le MoE fonctionne mieux quand chaque expert fait ce qu’il sait faire de mieux, et quand ils se coordonnent entre eux pour répondre à la demande de l’utilisateur.

Mais comment le MoE sait-il quel expert choisir pour chaque demande ? C’est là qu’intervient le réseau de routage, qui joue le rôle de sélectionneur ou de coach. Le réseau de routage est un autre modèle d’IA, qui a pour tâche de répartir les demandes entre les experts, en fonction de leur pertinence et de leur disponibilité. Le réseau de routage apprend à connaître les forces et les faiblesses de chaque expert, et à optimiser la combinaison des experts pour obtenir le meilleur résultat possible.

Par exemple, si l’utilisateur demande de générer un poème en français, le réseau de routage va choisir l’expert qui maîtrise le mieux le français, et l’expert qui maîtrise le mieux la poésie. Si l’utilisateur demande de générer un code en Python, le réseau de routage va choisir l’expert qui maîtrise le mieux le Python, et l’expert qui maîtrise le mieux la programmation. Si l’utilisateur demande de générer une image d’un chat, le réseau de routage va choisir l’expert qui maîtrise le mieux la génération d’images, et l’expert qui maîtrise le mieux la reconnaissance des chats.

Un MoE présente plusieurs avantages par rapport à un modèle classique :

Il permet d’augmenter la capacité du modèle, c’est-à-dire le nombre de paramètres qui déterminent son comportement, sans augmenter le coût et la latence, c’est-à-dire le temps et l’énergie nécessaires pour traiter une demande. En effet, le MoE n’utilise qu’une partie des paramètres disponibles à chaque fois, ce qui réduit la charge de calcul.
Il permet d’améliorer la qualité du modèle, c’est-à-dire sa capacité à produire des réponses correctes, pertinentes et diversifiées. En effet, le MoE profite de la variété et de la complémentarité des experts, qui peuvent se corriger et se renforcer mutuellement.
Il permet d’adapter le modèle aux besoins de l’utilisateur, c’est-à-dire sa capacité à répondre à des demandes variées, complexes et spécifiques. En effet, le MoE peut choisir les experts les plus appropriés pour chaque demande, et les combiner de manière flexible et dynamique.

Mixtral est un exemple de MoE de haute qualité, qui combine les talents de 8 experts, chacun ayant 7B de paramètres. Grâce à son réseau de routage intelligent, Mixtral peut gérer des demandes de différents types, langues et domaines ett avec une vitesse et un coût comparables à un modèle de 12.9B.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊


Le Basilic de Roko	Mon parcours de rédacteur web	Science corrompue et servile	Nous, Tueurs en série

Comment Mistral AI impressionne avec Mixtral, un modèle de Mixture of Experts

Repousser la frontière des modèles ouverts avec des architectures sparses

Performance

Aperçu des performances

Évolution des performances

Modèles instruits

Qu’est-ce qu’un Mixture of Experts dans l’IA ?

Mes livres

Laisser un commentaire Annuler la réponse

Les autres actualités dans Technologie

Rejoignez-nous sur Telegram ou Facebook