Comment le Big Data crée-t-il de la fausse confiance ?


  • FrançaisFrançais

  • Si vous prétendez que les Américains sont devenus égoïstes, alors vous serez considéré comme un râleur et un anti-américain. Mais qu’est-ce qui se passe si vous dites que vous pouvez le prouver en analysant 150 milliards de mots ? Il y a quelques décennies, ce type de preuve était impossible, mais aujourd’hui, elle est facilement réalisable pour le Big Data. Ce type d’analyse foisonne dans la biologie, la linguistique, la finance et dans chaque domaine. Mais le Big Data n’est pas une solution magique et il donne des résultats catastrophiques dans certains cas.


    Le Big Data peut donner des résultats catastrophiques avec des études biaisées

    Traduction de l’article publié sur Nautil.us.

    Le Big Data est la nouvelle lubie des entreprises et des marketeurs. Ils savent que c’est une nouvelle manière pour inciter à investir dans des équipements couteux et des technologies révolutionnaires. Le web est rempli de sites spécialisés dans le Big Data même si la plupart d’entre eux ont dû mal à définir le Big Data. Mais l’idée générale est de trouver des ensembles de données tellement gigantesques qu’ils vont révéler des patterns invisibles à une analyse conventionnelle. Les données sont générées par des millions d’actions de l’utilisateur tels que les Tweets, les achats de carte de crédit et il faut des milliers d’ordinateurs pour les analyser. Pour de nombreux entreprises et chercheurs, il est bon d’investir quelques millions dans le Big Data, car il peut révéler des informations sur de nombreuses choses allant des troubles génétiques jusqu’aux prix des actions.

    Les faux résultats de Google Ngrams

    Mais il y a un problème. C’est tentant de croire qu’en travaillant avec une grande masse de données, les études qui les utilisent sont toujours fiables. Mais la grosseur des données peut donner un faux sens de certitude aux résultats. En fait, la plupart des études sur le Big Data sont fausses, car on croit aveuglément les données et on ne se pose pas de questions sur leur pertinence.

    Dans le cas du langage et de la culture, le Big Data a vraiment décollé en 2011 lorsque Google a publié son outil Ngrams. Annoncé en fanfare dans la revue Science, Google Ngrams permet aux utilisateurs de chercher des phrases courtes dans la base de données des livres scannés par Google. Notons que cela concerne seulement 4 % de tous les livres publiés. Ngram permet de voir comment certaines phrases ont évolué au fil de la littérature. Les auteurs du papier ont annoncé l’avènement d’une Culturomics qui est l’étude de la culture basée sur des données brutes. Et Google Ngrams a été une source infinie de divertissement, mais aussi une mine d’or pour les linguistes, les psychologues et les sociologues. C’est avec Ngrams qu’on a découvert que les Américains sont devenus égoïstes. Ils oubliaient leur passé chaque nouvelle année et les valeurs morales disparaissent de la culture consciente.

    Nous perdons espoir selon Google Ngrams. L'auteur de XKCD, a découvert les problèmes du Big Data avec une analyse qui montre la baisse du mot espoir dans notre culture

    Nous perdons espoir selon Google Ngrams. L’auteur de XKCD a découvert les problèmes du Big Data avec une analyse qui montre la baisse du mot espoir dans notre culture

    Et le problème commence avec la manière dont le Corpus de Ngrams a été construit. Dans une étude publiée en octobre 2015, 3 chercheurs de l’université du Vermont ont pointé que Google Books inclut une copie de chaque livre. Cela remplit son objectif qui est d’exposer le contenu des livres à la technologie de Google. Mais d’un point de vue de la recherche sociale, ce type de Corpus est dangereusement biaisé. Par exemple, certains livres ont une importance moindre par rapport à leur vrai poids culturel. Le Seigneur des Anneaux est moins influent que les persécutions des sorcières en Bavière. Et certains auteurs deviennent célèbres du jour au lendemain. À partir des données de la fiction anglaise, vous pouvez conclure, selon Ngrams, que pendant 20 ans dans les années 1900, chaque personnage et son frère dans les livres se prénommait Lanny.

    Selon Ngrams et le Big Data, tous les livres, pendant 20 ans dans les années 1900, avaient des personnages qui s'appelaient Lanny

    Selon Ngrams et le Big Data, tous les livres, pendant 20 ans dans les années 1900, avaient des personnages qui s’appelaient Lanny

    En fait, les données reflètent simplement l’auteur, très prolifique, mais pas très populaire Upton Sinclair qui avait écrit 11 romans avec un personnage nommé Lanny Budd.

    Une mauvaise interprétation du Big Data

    De plus, Ngrams ne propose pas une vision homogène de ce qui a été réellement publié. La même étude de l’université du Vermont a remarqué qu’il y avait une augmentation des articles scientifiques à partir de 1960 ce qui est ridicule parce que Ngrams a juste analysé le mot Figure (chiffre) pour déterminer que c’est lié forcément à des articles scientifiques.

    Selon Ngrams et le Big Data, Le mot Figure avec un F en majuscule indique forcément une augmentation des articles scientifiques.

    Selon Ngrams et le Big Data, Le mot Figure avec un F en majuscule indique forcément une augmentation des articles scientifiques.

    Et même si on a de bonnes sources, alors on a le problème de l’interprétation. Des mots tels que personnage ou dignité peuvent décliner au fil des années. Mais cela signifie-t-il que les gens ont perdu tout sens moral ? Pas si vite selon Ted Underwood, un professeur d’anglais à l’université de l’Illinois. La conception de la moralité actuelle est très différente de celle du siècle dernier et la dignité a pu être populaire pour des raisons non morales. Et donc, toutes les conclusions à partir de ces associations sont suspectes.

    Le fiasco de Google Flu Trends

    Mais ce n’est pas nouveau pour les statisticiens et les linguistes. Les données et leur interprétation ont toujours été un problème. Mais la différence avec Google Ngrams est qu’on est aveuglé par la quantité des données. Et cette tentation n’est pas unique pour les études Ngrams, car on trouve ce type d’erreur dans de nombreux projets de Big Data. On peut prendre l’exemple de Google Flu Trends (GFT). Lancé en 2008, GFT devait compter des mots tels que fièvre ou toux dans les millions de recherches Google pour en faire une sorte de météo de la grippe. Avec ces chiffres, les responsables de santé pouvaient agir 2 semaines avant que le CDC puisse le faire puisque ce dernier se base sur les rapports des médecins qui prennent plus de temps.

    À la base, GFT a rapporté une précision de 97 %. Mais une étude de la Northeastern University (PDF) a découvert que la précision était une erreur grossière. En premier lieu, GFT a complètement manqué la pandémie de grippe porcine au printemps et été 2009 (GFT se concentrait sur l’hiver). Ensuite, GFT a commencé à surestimer les cas de grippe. En fait, il a surestimé les chiffres de la grippe en 2013 de 140 % ! Un résultat tellement flamboyant que Google a abandonné définitivement le programme.

    Comme avec Ngrams, les gens n’ont pas considéré les sources et l’interprétation de leurs données. La recherche de Google, source du GFT, n’est pas adaptée pour les statistiques et cela vient des caractéristiques de ce moteur. Par exemple, l’autocomplétion fait que Google remplit automatiquement la requête alors que les utilisateurs tapent les premières lettres. De plus, les ingénieurs du GFT ont fait une interprétation catastrophique, car ils ont considéré chaque requête comme un indicateur possible de la grippe. Ainsi, pour GFT, le mot neige était une preuve de la grippe.

    Le Big Data recèle plus d’erreurs que les outils traditionnels

    Le Big Data est loin d’être une panacée, mais il peut être évolutif. Plusieurs groupes tels que ceux du groupe de Jeffrey Shaman de l’université de Columbia ont mieux prédit les cas de grippe par rapport au CDC et au GFT en utilisant les données du CDC pour compenser les erreurs du GFT. L’équipe a seulement utilisé des données fiables. On peut dire que Google accumule les bourdes sur le Big Data, mais c’est valable dans n’importe quel domaine. La femme de l’auteur de cet article a travaillé pour une entreprise qui a extrait toutes les annonces d’emplois sur internet et elle les a transformés en statistiques pour des agences gouvernementales de l’emploi. Les managers de l’entreprise ont prétendu qu’ils avaient analysé 80 % des emplois dans l’industrie, mais encore une fois, la quantité des données les a aveuglés. Par exemple, un Walmart pourrait poster une seule annonce pour un vendeur alors qu’il en cherche 10. De plus, l’annonce pourrait rester en ligne pendant des semaines alors que le poste a trouvé un candidat. Plutôt que devenir arrogant quand on parle de Big Data, il est toujours conseillé d’avoir un esprit critique surtout quand quelqu’un vous prétend qu’il a analysé des milliards de mots en quelques semaines.

     

    N'oubliez pas de voter pour cet article !
    1 étoile2 étoiles3 étoiles4 étoiles5 étoiles (No Ratings Yet)
    Loading...
    mm

    La Rédaction

    L'équipe rédactionnelle

    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée.