ChatGPT peut désormais parler, voir et entendre

par Houssen Moshinaly · 26 septembre 2023

OpenAI annonce de nouvelles fonctionnalités pour ChatGPT, qui permet désormais de dialoguer avec, car le chatbot est maintenant capable de reconnaître et de produire du texte, de la voix et de l’image.

Suivez-nous sur notre page Facebook et notre canal Telegram

OpenAI annonce de nouvelles fonctionnalités pour son chatbot ChatGPT, qui permet de dialoguer avec une intelligence artificielle capable de comprendre et de produire du texte, de la voix et de l’image. Ces fonctionnalités seront déployées progressivement dans les prochaines semaines.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

La première nouveauté concerne la voix. ChatGPT pouvait déjà reconnaître la voix de l’utilisateur grâce au modèle Whisper, basé sur le code source ouvert d’OpenAI. Mais il ne pouvait répondre que par texte. Désormais, ChatGPT pourra aussi parler à l’utilisateur avec une voix synthétique, créée par un nouveau modèle de synthèse vocale développé par OpenAI.

Ce modèle est capable de générer des voix humaines à partir d’un texte, en imitant le style de la voix originale avec seulement quelques secondes d’échantillon audio. OpenAI a travaillé avec des acteurs professionnels pour créer cinq voix différentes pour ChatGPT. Le modèle de synthèse vocale est également utilisé par Spotify, qui s’en sert pour traduire des podcasts dans d’autres langues avec la voix du présentateur.

La deuxième nouveauté concerne l’image. ChatGPT pouvait déjà reconnaître et parler du contenu des images, grâce aux modèles GPT-3.5 et GPT-4, annoncés lors du lancement de GPT-4. Cette fonctionnalité est maintenant disponible pour les utilisateurs.

ChatGPT peut ainsi répondre à des questions pratiques en utilisant des images. Par exemple, il peut suggérer des idées de recettes en fonction des photos du réfrigérateur et du garde-manger de l’utilisateur. Il peut aussi aider à entretenir un vélo en montrant des images explicatives. Il peut même discuter de lieux touristiques en se basant sur des photos. ChatGPT est donc un chatbot multimodal, qui peut entendre, parler, voir et comprendre des messages combinant du texte, de la voix et de l’image. OpenAI espère ainsi rendre l’interaction plus intuitive et plus riche avec son intelligence artificielle.

OpenAI met en garde contre l’utilisation de GPT-4V dans des scénarios sensibles

OpenAI, qui a développé le modèle GPT-4V(ision) pour la reconnaissance d’images, indique dans sa fiche technique que ce modèle est “peu fiable”. Par exemple, il a confondu des substances chimiques comme le fentanyl, le carfentanil et la cocaïne, mais il a parfois identifié correctement des composants dangereux comme des champignons vénéneux. Le modèle était sujet à des hallucinations et pouvait présenter des faits incorrects avec un ton autoritaire. “Cela démontre que le modèle est peu fiable et ne doit pas être utilisé pour des tâches à haut risque comme l’identification de composés ou d’aliments dangereux”, précise le document.

OpenAI déconseille donc d’utiliser GPT-4V dans un contexte scientifique ou médical. L’entreprise fournit également des exemples où le modèle refuse de répondre pour éviter de donner un retour sur d’éventuels biais.

OpenAI limite l’analyse d’images de ChatGPT pour les humains

Une grande partie de l’annonce d’OpenAI sur les nouvelles fonctionnalités de ChatGPT tourne autour de la promesse de développer une intelligence artificielle sûre et utile. L’entreprise affirme avoir effectué des tests intensifs depuis la présentation de GPT-4 et de sa reconnaissance d’images associée. Néanmoins, les hallucinations n’ont pas pu être écartées.

“Nous avons également pris des mesures techniques pour limiter considérablement la capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes, car ChatGPT n’est pas toujours précis et ces systèmes doivent respecter la vie privée des individus”, écrit OpenAI. L’entreprise ajoute que l’utilisation réelle aide à améliorer ces protections.

Auparavant, il y avait eu des rapports selon lesquels OpenAI craignait que la compréhension d’images de ChatGPT ne soit détournée comme un système de reconnaissance faciale et qu’elle devait être restreinte. L’application “Be My Eyes”, qui décrit l’environnement pour les malvoyants, a désactivé la reconnaissance faciale il y a quelques mois. Dans la fiche technique de GPT-4V(ision), OpenAI écrit qu’il travaille sur une fonctionnalité qui peut décrire les visages sans identifier les personnes.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊


Le Basilic de Roko	Mon parcours de rédacteur web	Science corrompue et servile	Nous, Tueurs en série

ChatGPT peut désormais parler, voir et entendre

OpenAI met en garde contre l’utilisation de GPT-4V dans des scénarios sensibles

OpenAI limite l’analyse d’images de ChatGPT pour les humains

Mes livres

Laisser un commentaire Annuler la réponse

Les autres actualités dans Technologie

Rejoignez-nous sur Telegram ou Facebook