OpenAI contre-attaque face à Google avec GPT-Vision et Gobi

Houssen Moshinaly

il y a 8 mois

Face au lancement prochain de Gemini, le modèle d’IA multimodal de Google, OpenAI prépare sa riposte avec GPT-Vision et Gobi, deux nouveaux outils basés sur le GPT-4.

Selon The Information, OpenAI s’apprêterait à déployer la fonctionnalité de compréhension d’image de GPT-4. Cette capacité multimodale avait été présentée lors du dévoilement du GPT-4 et avait constitué un aspect majeur de la présentation. Une démo dans laquelle le GPT-4 générait du code de page web à partir d’un simple dessin d’une page web avait fait sensation.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

Toutefois, à part quelques utilisateurs testeurs et quelques applications sélectionnées, cette compréhension d’image n’est pas encore accessible aux utilisateurs réguliers du GPT-4. Selon un rapport du New York Times en juillet, OpenAI craint que la fonctionnalité ne soit détournée pour des choses comme la reconnaissance faciale. OpenAI a bloqué les descriptions de personnes dans l’application d’aide visuelle “Be my Eyes”.

Les réponses d’OpenAI à Gemini : GPT-Vision et Gobi

Avec la sortie prévue de son modèle d’IA multimodal Gemini cet automne, Google pousserait OpenAI à rendre la compréhension d’image plus largement disponible sous le nom de “GPT-Vision”. Cela ouvrirait un nombre de nouvelles applications basées sur l’image pour le GPT-4, comme générer du texte correspondant aux images. Il y a aussi des rumeurs selon lesquelles DALL-E 3, qui est également en développement, pourrait être intégré à ChatGPT ou GPT-4. Une combinaison du nouvel outil d’image avec l’annonce de GPT-Vision semble plausible. Les premières images supposément générées par DALL-E 3 montrent de grands progrès par rapport à DALL-E 2.

Les nouvelles fonctionnalités pour le GPT-4 pourraient être dévoilées lors de la conférence des développeurs d’OpenAI le 6 novembre. Le PDG d’OpenAI, Sam Altman, a annoncé qu’il y aurait “de super choses”, mais pas aussi importantes que le GPT-4.5 ou le GPT-5. Plus précisément, la société parle de “nouveaux outils” qu’elle veut montrer. Donc GPT-Vision et DALL-E 3 seraient toujours dans la course, et le timing serait bon pour contrer Google. DALL-E 2 a besoin d’une mise à jour de toute façon, car des outils comme Midjourney, Stable Diffusion, ou Ideogram sont largement en avance.

Selon The Information, OpenAI envisagerait également un nouveau modèle d’IA, baptisé “Gobi”, qui serait conçu pour être multimodal dès le départ. L’entraînement pour Gobi n’a pas encore commencé, et il y a une chance qu’il devienne le GPT-5.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊


Le Basilic de Roko	Mon parcours de rédacteur web	Science corrompue et servile	Nous, Tueurs en série

Les réponses d’OpenAI à Gemini : GPT-Vision et Gobi

Mes livres