GPT-4 : comment OpenAI a utilisé une idée vieille de 30 ans pour créer ce modèle de langage


  • FrançaisFrançais

  • OpenAI aurait développé GPT-4, un modèle de langage de 1,76 billion de paramètres, basé sur une architecture appelée Mixture of Experts, qui date de près de 30 ans.


    Suivez-nous sur notre page Facebook et notre canal Telegram

    OpenAI aurait développé GPT-4, un modèle de langage de 1,76 billion de paramètres, basé sur une architecture appelée Mixture of Experts, qui date de près de 30 ans.

    OpenAI aurait développé son GPT-4 avec 1,76 billion de paramètres. Ce modèle serait basé sur une architecture appelée Mixture of Experts (MoE), qui consiste à combiner plusieurs modèles spécialisés dans différents domaines. Cette idée n’est pas nouvelle : elle date de près de 30 ans et a déjà été utilisée par Google pour son Switch Transformer.

    Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

    L’information provient de George Hotz, le fondateur de Comma.ai, une startup spécialisée dans la conduite autonome. Hotz est un expert en intelligence artificielle, mais aussi un ancien hacker, connu pour avoir craqué l’iPhone et la Playstation 3. Selon lui, GPT-4 serait composé de huit modèles, chacun ayant 220 milliards de paramètres, reliés par l’architecture MoE. Cette architecture permettrait de répartir le problème en sous-problèmes plus simples et de faire appel aux modèles les plus adaptés en fonction de l’entrée. Elle faciliterait aussi le développement du modèle en permettant à différentes équipes de travailler sur des parties distinctes du réseau.

    OpenAI n’a pas confirmé ni infirmé ces informations, mais d’autres experts en intelligence artificielle ont réagi sur Twitter en disant que les rumeurs étaient crédibles. Soumith Chintala a même suggéré que GPT-4 aurait pu être réduit à un modèle plus petit et plus efficace après avoir été entraîné avec l’architecture MoE. Hotz a également avancé que GPT-4 produirait non pas une seule sortie, mais 16 sorties améliorées à chaque itération.

    GPT-4 pourrait donc être un modèle de langage très performant et polyvalent, capable de traiter différents types de données et de générer des textes de haute qualité. La communauté open-source pourrait s’inspirer de son architecture pour créer ses propres modèles, mais elle devra faire face aux contraintes de données et de ressources computationnelles qui limitent encore le domaine.

    Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

    Houssen Moshinaly

    Rédacteur en chef d'Actualité Houssenia Writing. Rédacteur web depuis 2009.

    Blogueur et essayiste, j'ai écrit 9 livres sur différents sujets comme la corruption en science, les singularités technologiques ou encore des fictions. Je propose aujourd'hui des analyses politiques et géopolitiques sur le nouveau monde qui arrive. J'ai une formation de rédaction web et une longue carrière de prolétaire.

    Pour me contacter personnellement :

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *