L’intelligence artificielle et les mégadonnées vont-ils remplacer les scientifiques ?

par Houssen Moshinaly · Publié 29 mai 2017 · Mis à jour 6 octobre 2017

Est-ce que l’intelligence artificielle et les mégadonnées vont remplacer les scientifiques sur le long terme ?

Suivez-nous sur notre page Facebook et notre canal Telegram

En 2008, Chris Anderson, rédacteur en chef du magazine Wired publiait un article estimant que l’hypothèse scientifique était désormais obsolète.¹ Partisan du Cloud à grande échelle et de l’avènement des mégadonnées (Big Data), il estime que dans un futur très proche, on n’aura plus besoin des scientifiques et des hypothèses. La science se base sur des modèles et en général, tous les modèles sont incomplets, mais certains sont utiles. Tout modèle d’un phénomène réel est condamné à évoluer ce qui lui donne une utilité temporaire. Et un autre article sur BackChannel estime qu’Anderson avait raison, mais que ce serait l’intelligence artificielle qui va remplacer les scientifiques.² Cet article, assez long, peut être résumé par le fait que nous produisons actuellement des connaissances qui nous sont totalement étrangères et que les théories ne sont plus nécessaires.

Mais est-ce qu’on a toujours besoin des modèles quand on a des données qui dépassent la capacité à les comprendre ? Pour Anderson, la réponse est non. Il estime qu’on n’aura plus besoin d’hypothèse, car ce sont les données qui vont créer les modèles. On a mentionné l’utilité temporaire des modèles, mais si on a beaucoup de données, alors on n’en a plus besoin. La science se base sur des processus assez simples. On émet des idées, farfelues ou pertinentes, on en fait des hypothèses via des modèles (par exemple un formalisme mathématique) et ensuite, on teste ces hypothèses contre les observations du monde. Ces observations produisent des données qui nous permettent de créer de nouvelles hypothèses et ainsi de suite.

Sommaire

1 Plus besoin des hypothèses dans un monde de mégadonnées
2 Les scientifiques sont irremplaçables pour le moment
- 2.1 Sources

Plus besoin des hypothèses dans un monde de mégadonnées

Les modèles scientifiques nous permettent de mieux de représenter le monde et ils nous permettent donc d’y vivre selon les modèles. Les modèles sur les dangers du tabagisme ont façonné notre société, mais est-ce que les données sont seulement suffisantes ? Anderson ne postule pas que l’intelligence artificielle et le mégadonnées va remplacer les scientifiques, mais cela reste un processus envisageable. Évidemment, il prend l’exemple de Google. Pourquoi Google a-t-il gagné le marché de la publicité en ligne ? Est-ce qu’il comprend les articles et les pages web ? Non, il a simplement accumulé suffisamment de données pour donner des prédictions sur la préférence des gens.

Google ne juge pas une page, mais s’il y a beaucoup de liens qui pointent vers cette page, alors pour Google, c’est une bonne page. C’est une corrélation et non une causalité. Ce ne sont pas les liens qui disent que la page est bonne ou non, mais le test de ce modèle sur long terme a prouvé que Google avait raison de se baser sur les données et non des hypothèses pour déterminer si une page est bonne ou non et ensuite, on accumule les données. Et cela fonctionne. Google Translate vous permet de traduire votre texte en français en arabe. Google ne connait pas ce texte, mais il a suffisamment de données pour fournir une bonne traduction.

La méthode scientifique fait exactement le contraire, car elle part d’un modèle primitif pour se préciser de plus en plus. La mécanique de Newton décrit parfaitement les interactions du monde de l’infiniment grand, mais elle est inutile au niveau atomique. La mécanique quantique résolut ce problème, mais on sent qu’il y a quelque chose d’autre et nous avons vu les théories d’unification comme la théorie des cordes ou la gravitation quantique à boucle. Et le point commun de ces théories est qu’elles ne sont pas testables à cause de l’énergie nécessaire. Le point important est qu’avec la méthode scientifique actuelle, on pourrait créer de nouveaux modèles, mais ils deviennent de plus en plus couteux.

Le postulat d’Anderson est qu’il faut arrêter de poser des hypothèses et laisser les données et les algorithmes faire le boulot à la place des scientifiques. Le monde des mégadonnées et des algorithmes donne une place prédominante aux corrélations et l’effet de causalité est enterré dans le cimetière des oubliés. Pourquoi réfléchir à une cause si les corrélations nous donnent des modèles satisfaisants ? Anderson cite le chercheur J. Craig Venter qui a utilisé des séquenceurs ultra-rapides et des supercalculateurs pour analyser statistiquement les données. Il a pu séquencer des organismes individuels, mais il s’est retrouvé à séquencer des écosystèmes en entier. En 2003, le mec a séquencé une partie de l’océan pour retracer le voyage du capitaine Cook et en 2005, il a séquencé de l’air pour découvrir des centaines de bactéries inconnues. Mais Venter n’est pas apprécié par la communauté scientifique. D’une part, il a tendance à breveter la moindre broutille et comme l’a mentionné James Watson (co-découvreur de la structure de l’ADN) devant le Congrès : Ce que fait Venter avec ses machines de séquençage, ce n’est pas de la science, car un singe pourrait le faire.

Les scientifiques sont irremplaçables pour le moment

Chris Anderson et d’autres auteurs en général parient tellement sur l’IA et les mégadonnées qu’ils ne comprennent pas la base même de la science. Et Ars Technica estime que c’est plus ou moins de la merde.³ L’auteur prend l’exemple du Boson de Higgs. On l’a découvert grâce aux prédictions du modèle standard de la physique. Mais il ne suffit pas de découvrir la particule de Higgs, car il faut comprendre ses modèles de désintégration. Le Deep Learning peut vous dire précisément la particule, car on lui a simplement appris à détecter un pattern dans un ensemble de données. Mais pourquoi une IA chercherait-elle le Boson de Higgs à la base ? Qui pose la question ? Et partir de quoi chercherait-elle ?

Google est très fort pour la reconnaissance d’images et aujourd’hui, il met à la disposition du public ses outils de Deep Learning et d’intelligence artificielle. Vous installez ces outils dans vos machines pour, par exemple, chercher des images de chats dansant la samba sur 1 million d’images. Mais comment fait-on ? Et bien, il faut lui dire ce qu’est un chat, la danse de la samba et ensuite, on doit lui apprendre à chercher une image combinant les deux… avec une image de chat dansant la samba. Le point crucial avec les mégadonnées et l’intelligence artificielle est qu’il aura toujours besoin de données au départ. Sans donnée, c’est juste une boite noire totalement vide.

C’est exactement les réflexions d’Étienne Klein dans ses dernières conférences. Les mégadonnées et l’intelligence artificielle peuvent nous donner des résultats à condition d’envisager un futur qui ne change pas. Sans le modèle standard de la physique, on n’a pas de Higgs qui réfléchit à une particule qui résout les incohérences de ce modèle. Mais il est difficile de faire le contraire. On a des tonnes de données sur les interactions de particules, mais est-ce qu’elles peuvent créer l’hypothèse de la particule de Higgs ? En fait, si vous ne donnez pas l’hypothèse à une IA sur le Boson de Higgs, elle ne comprendrait même pas ce que c’est quand elle tomberait dessus, car elle l’assimilerait à de la nuisance dans les données, car les exemples qu’elle a reçus ne comportent pas cette particule.

On pourrait penser que dans 10 ans, les IA et les mégadonnées vont pouvoir proposer de nouvelles hypothèses avec les grandes quantités de données, mais comment déterminer si ces données sont fiables ? On ne pourra pas le faire, car c’est des mégadonnées, impossible à comprendre par les humains. Et on n’a même pas besoin d’un futur proche pour comprendre les limites de cette approche.

Qu’est-ce qui se passe si on demande à une IA de résoudre le mystère de la matière noire ? On a des tonnes de données sur le mouvement des galaxies, des étoiles et les interactions de particules. Imaginons également qu’on aide l’IA avec un panel de plusieurs hypothèses sur la matière noire. Ce serait une particule de très grande taille, ce serait une particule plus fantomatique que les neutrinos ou qu’il n’y pas de matière noire et que c’est le modèle de la gravitation de la relativité générale qui est incorrect à certaines échelles. Comment l’IA va-t-elle choisir entre ces hypothèses en disant que voilà, cette particule qui est bizarre dans mes statistiques est la matière noire ? Et qu’est-ce qui se passe si on découvre que cette particule bizarre n’a rien à voir avec la matière noire et que c’est simplement une bizarrerie.

La confusion entre corrélation et causalité a provoqué des erreurs fondamentales dans certaines études. Ces études se basent quand même des hypothèses. Il faudra s’accrocher lorsqu’on va appliquer cette confusion à la création même des hypothèses. Ce ne sera plus de la science, mais un machin-truc qu’on ne comprend plus. Mais il est clair que le concept de scientifique est appelé à évoluer et il faut que les scientifiques s’adaptent à ce changement. Un bon modèle est très peu d’hypothèses avec des tonnes de données. Pourquoi prendre le risque de supprimer ces hypothèses alors qu’elles seront cruciales pour comprendre les données et déterminer si on a raison de donner raison aux algorithmes qui analysent des données. On pourrait même imaginer un monde où les scientifiques passeraient leurs temps à émettre des modèles théoriques sur le fonctionnement des algorithmes qui leur balancent des résultats et pour être honnête, ce serait vraiment un monde monotone sans aucune saveur.

Sources

The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. wired.com. https://www.wired.com/2008/06/pb-theory/. Consulté le mai 29, 2017.

Our Machines Now Have Knowledge We’ll Never Understand. Backchannel. https://backchannel.com/our-machines-now-have-knowledge-well-never-understand-857a479dcc0e. Published 18 avril 2017. Consulté le mai 29, 2017.

First the cloud, now AI takes on the scientific method. arstechnica.com. https://arstechnica.com/science/2017/05/why-the-cloud-cannot-obscure-the-scientific-method/.