GPT-4 : comment OpenAI a utilisé une idée vieille de 30 ans pour créer ce modèle de langage

par Houssen Moshinaly · Publié 30 juin 2023 · Mis à jour 30 juin 2023

OpenAI aurait développé GPT-4, un modèle de langage de 1,76 billion de paramètres, basé sur une architecture appelée Mixture of Experts, qui date de près de 30 ans.

Suivez-nous sur notre page Facebook et notre canal Telegram

OpenAI aurait développé son GPT-4 avec 1,76 billion de paramètres. Ce modèle serait basé sur une architecture appelée Mixture of Experts (MoE), qui consiste à combiner plusieurs modèles spécialisés dans différents domaines. Cette idée n’est pas nouvelle : elle date de près de 30 ans et a déjà été utilisée par Google pour son Switch Transformer.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

L’information provient de George Hotz, le fondateur de Comma.ai, une startup spécialisée dans la conduite autonome. Hotz est un expert en intelligence artificielle, mais aussi un ancien hacker, connu pour avoir craqué l’iPhone et la Playstation 3. Selon lui, GPT-4 serait composé de huit modèles, chacun ayant 220 milliards de paramètres, reliés par l’architecture MoE. Cette architecture permettrait de répartir le problème en sous-problèmes plus simples et de faire appel aux modèles les plus adaptés en fonction de l’entrée. Elle faciliterait aussi le développement du modèle en permettant à différentes équipes de travailler sur des parties distinctes du réseau.

i might have heard the same 😃 — I guess info like this is passed around but no one wants to say it out loud.
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.

Though, at this point, GPT-4 is… https://t.co/mfsK7a6Bh7

— Soumith Chintala (@soumithchintala) June 20, 2023

OpenAI n’a pas confirmé ni infirmé ces informations, mais d’autres experts en intelligence artificielle ont réagi sur Twitter en disant que les rumeurs étaient crédibles. Soumith Chintala a même suggéré que GPT-4 aurait pu être réduit à un modèle plus petit et plus efficace après avoir été entraîné avec l’architecture MoE. Hotz a également avancé que GPT-4 produirait non pas une seule sortie, mais 16 sorties améliorées à chaque itération.

GPT-4 pourrait donc être un modèle de langage très performant et polyvalent, capable de traiter différents types de données et de générer des textes de haute qualité. La communauté open-source pourrait s’inspirer de son architecture pour créer ses propres modèles, mais elle devra faire face aux contraintes de données et de ressources computationnelles qui limitent encore le domaine.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊


Le Basilic de Roko	Mon parcours de rédacteur web	Science corrompue et servile	Nous, Tueurs en série

GPT-4 : comment OpenAI a utilisé une idée vieille de 30 ans pour créer ce modèle de langage

Mes livres

Laisser un commentaire Annuler la réponse

Les autres actualités dans Technologie

Rejoignez-nous sur Telegram ou Facebook