ChatGPT en chute libre : une étude dévoile les failles du modèle

par Houssen Moshinaly · 20 juillet 2023

ChatGPT est-il pire maintenant qu’en mars ? Une étude examine comment le modèle a changé sur quatre tâches et révèle des bugs et des régressions. Les chercheurs recommandent aux utilisateurs de ChatGPT de surveiller le comportement du modèle.

Suivez-nous sur notre page Facebook et notre canal Telegram

Une étude examine comment le comportement de ChatGPT a changé entre mars et juin et constate des changements significatifs – et pas en bien.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊

Des chercheurs de l’université de Stanford et de l’UC Berkeley ont évalué la performance d’une version ancienne et d’une version récente de GPT-3.5 et GPT-4 sur quatre tâches différentes :

Résoudre des problèmes de mathématiques
Répondre à des questions délicates/dangereuses
Générer du code
Raisonnement visuel

L’étude montre que la performance et le comportement des deux versions diffèrent, parfois de manière spectaculaire. Par exemple, GPT-4 (mars 2023) est capable de reconnaître les nombres premiers avec 97,6 % de précision, tandis que GPT-4 (juin 2023) échoue (2,4 % de précision) et ignore la prompt. GPT-3.5 (juin 2023), en revanche, se comporte nettement mieux que GPT-3.5 (mars 2023) sur cette tâche.

GPT-4 produit nettement moins de code directement exécutable en juin Il y a également une baisse significative de l’exécutabilité directe du code : pour GPT-4, le pourcentage de générations directement exécutables est passé de 52 % en mars à 10 % en juin. La baisse pour GPT-3.5 a également été significative (de 22 % à 2 %). Le raisonnement : en mars, GPT-4 et GPT-3.5 suivaient les instructions de l’utilisateur (“juste le code”) et produisaient ainsi des générations directement exécutables.

En juin, en revanche, ils ont ajouté des triples guillemets avant et après le code, le rendant non directement exécutable sans intervention manuelle. La qualité du code généré semble être à un niveau similaire, mais l’équipe n’a pas effectué une comparaison détaillée.

L’équipe montre également que GPT-4 répond à moins de questions délicates en juin et se comporte légèrement mieux sur les tâches de raisonnement visuel – mais commet des erreurs en juin que le modèle de mars ne commet pas. Les chercheurs notent également une légère amélioration pour GPT-3.5.

L’équipe recommande aux entreprises de mettre en place une analyse de suivi pour les services LLM GPT-4 est-il pire maintenant qu’en mars ? L’étude ne fournit pas une réponse claire à cette question, mais elle semble montrer que la version de juin contient des bugs qui n’étaient pas présents dans l’ancienne version.

Sommaire

1 Que signifie cette perte de vitesse ?
2 OpenAI réagit à la recherche, “en train d’examiner”
3 Le marché de l’IA générative a encore besoin d’un contrôle de qualité

Que signifie cette perte de vitesse ?

“Nos résultats démontrent que le comportement de GPT-3.5 et GPT-4 a varié significativement sur une période relativement courte”, ont déclaré les chercheurs. “Cela souligne la nécessité d’évaluer et d’analyser continuellement le comportement des LLM dans les applications de production.”

Ainsi, que ces changements soient des bugs, comme Peter Welinder, VP Product chez OpenAI, l’a suggéré dans un exemple similaire, ou la preuve d’une baisse générale de la qualité basée sur des optimisations qu’OpenAI a faites pour réduire les coûts, reste flou – et c’est un problème car c’est opaque pour les clients d’OpenAI.

En conséquence, l’équipe recommande aux utilisateurs ou aux entreprises qui utilisent des services LLM dans leur flux de travail de mettre en place une analyse de suivi similaire pour leurs applications basée sur la recherche présentée. Pour soutenir ce processus et la recherche ultérieure sur la dérive des modèles linguistiques, l’équipe met à disposition les données d’évaluation et ChatGPT sur GitHub.

OpenAI réagit à la recherche, “en train d’examiner”

En réponse à la recherche. Logan Kilpatrick, actuellement responsable des relations avec les développeurs chez OpenAI, a déclaré que la société est consciente des régressions signalées et qu’elle les examine. Il a également appelé à la création d’un ensemble d’évaluation OpenAI public pour tester ces cas de régression connus au fur et à mesure que de nouveaux modèles sont publiés.

Dans un autre post, il a remercié tout le monde d’avoir rapporté leurs expériences avec la performance du modèle GPT-4. La société semble donc changer de communication après quelques cas de silence du personnel d’OpenAI et de Welinder partageant son hypothèse selon laquelle “quand vous l’utilisez plus intensément, vous commencez à remarquer des problèmes que vous n’aviez pas vus avant”.

Le marché de l’IA générative a encore besoin d’un contrôle de qualité

Cependant, les problèmes auxquels OpenAI est confronté avec GPT-4 ne sont pas propres à l’entreprise. Toute entreprise qui déploie et met à jour régulièrement des modèles d’IA peut être réticente à communiquer les changements si ceux-ci ne se traduisent pas directement par des améliorations de performance ou des réductions de coût pour ses clients – et dans certains cas, l’entreprise peut ne pas même remarquer la dégradation avant le déploiement.

Exemple : des rapports de dégradation de performance ont également été signalés avec le service d’IA générative Midjourney. Ces rapports montrent la même structure de témoignages personnels et de spéculations.

Tout cela montre à quel point le marché des produits d’IA générative est nouveau et compliqué. À l’avenir, des évaluations comme celle que Kilpatrick veut construire pourraient aider à passer des preuves anecdotiques à des références claires.

Si vous avez apprécié cet article, soutenez-moi sur Patreon ou Buy me a coffee Vous recevrez chaque semaine du contenu exclusif et des réponses à vos questions. Merci ! 😊


Le Basilic de Roko	Mon parcours de rédacteur web	Science corrompue et servile	Nous, Tueurs en série

ChatGPT en chute libre : une étude dévoile les failles du modèle

Que signifie cette perte de vitesse ?

OpenAI réagit à la recherche, “en train d’examiner”

Le marché de l’IA générative a encore besoin d’un contrôle de qualité

Mes livres

1 réponse

Laisser un commentaire Annuler la réponse

Les autres actualités dans Technologie

Rejoignez-nous sur Telegram ou Facebook