Adieu au terme “statistiquement significatif” dans la recherche scientifique ?

par Houssen Moshinaly · Publié 21 mars 2019 · Mis à jour 20 mars 2019

Les scientifiques devraient cesser d’utiliser le terme statistiquement significatif dans leurs recherches selon un éditorial publié dans The American Statistician.

Suivez-nous sur notre page Facebook et notre canal Telegram

La revue, intitulée Statistical Inference in the 21st Century: A World Beyond P<0.05, appelle à mettre fin à la pratique consistant à utiliser une valeur de probabilité (valeur p) inférieure à 0,05 comme preuve solide contre une hypothèse nulle ou une valeur supérieure à 0,05 comme preuve solide en faveur d’une hypothèse nulle. Au lieu de cela, les valeurs p doivent être rapportées en tant que quantités continues et décrites dans un langage indiquant ce que la valeur signifie dans le contexte scientifique.

Sommaire

1 Le terme statistiquement significatif
2 La signification statistique ne doit pas impliquer forcément un résultat positif ou négatif
3 Les déclarations de quelques-uns des auteurs

Le terme statistiquement significatif

Ce numéro spécial, qui contient 43 papiers de statisticiens du monde entier, devrait permettre de repenser l’inférence statistique en amorçant un processus qui fera progresser la science statistique, et la science elle-même, dans une nouvelle ère.

Dans cet éditorial, le Dr. Ronald Wasserstein, directeur exécutif de l’ASA, le Dr. Allen Schirm, retraité de Mathematica Policy Research et le professeur Nicole Lazar, de l’Université de Géorgie, ont déclaré: D’après notre évaluation des papiers de ce numéro spécial et dans la littérature plus large, nous concluons qu’il est temps de cesser d’utiliser le terme statistiquement significatif.

Aucune valeur p ne peut révéler la plausibilité, la présence, la vérité ou l’importance d’une association ou d’un effet. Par conséquent, une étiquette de statistiquement significatif ne signifie pas ou n’implique pas qu’une association ou un effet est hautement probable, réel, vrai ou important. Une étiquette de non-statistiquement significatif ne conduit pas non plus à une association ou à un effet improbables, absents, faux ou sans importance.

La signification statistique ne doit pas impliquer forcément un résultat positif ou négatif

Par conséquent, pour l’intégrité de la publication scientifique et de la diffusion de la recherche, le fait qu’une valeur p dépasse un seuil arbitraire ne doit absolument pas être pris en compte lors du choix des résultats à présenter ou à mettre en évidence. Les papiers du numéro spécial proposent des alternatives et des compléments aux valeurs prédictives, et soulignent la nécessité d’une réforme généralisée des pratiques éditoriales, éducatives et institutionnelles.

Les scientifiques devraient cesser d'utiliser le terme statistiquement significatif dans leurs recherches selon un éditorial publié dans The American Statistician.

Bien qu’il n’existe pas de solution unique pour remplacer le rôle démesuré que le statistiquement significatif a joué dans la science, il existe des principes solides pour l’utilisation des statistiques. La communauté statistique n’a pas encore convergé vers un paradigme simple d’utilisation de l’inférence statistique dans la recherche scientifique et pourrait même ne jamais le faire, ont-ils reconnu.

Une approche unique en matière d’inférence statistique est une attente inappropriée. Nous recommandons plutôt aux scientifiques, effectuant une analyse statistique de leurs résultats, d’adopter ce que nous appelons le modèle ATOM : Accept uncertainty, be Thoughtful, be Open, be Modest (acceptez l’incertitude, soyez attentif, ouvert et modeste).

Les déclarations de quelques-uns des auteurs

Ci-dessous, quelques déclarations de certains auteurs dans cet éditorial et des papiers qui le composent.

Un besoin de changement

Un changement social considérable est nécessaire dans les institutions académiques, les revues, les agences de financement et les agences de régulation. Nous suggérons de collaborer avec les mouvements de réforme de la science et les réformateurs dans les disciplines, les revues, les agences de financement et les régulateurs afin de promouvoir et de récompenser une science reproductible et de réduire l’impact d’importance statistique sur la publication, le financement et la promotion – Goodman

L’évaluation des papiers destinés à la publication devrait être aveugle aux résultats. Autrement dit, l’aptitude des papiers à être publiés devrait être évaluée en fonction de l’importance de la recherche, sans tenir compte des résultats rapportés – Locascio

Donner un vrai statut aux chercheurs qui reproduisent les études

Tout devrait être publié sous une forme quelconque si tout ce que nous mesurions avait du sens avant d’obtenir les données, car elles seraient liées de manière potentiellement utile à une question de recherche. Les éditeurs de revues devraient être fiers de leurs sections exhaustives sur les méthodes et fonder leurs décisions quant à leur pertinence d’une étude à publier sur la qualité de ses matériaux et méthodes plutôt que sur ses résultats et ses conclusions; la qualité de la présentation de ces dernières ne doit être jugée que s’il est établi que l’étude est utile sur la base des matériaux et méthodes utilisés – Amrhein et al.

La reproduction de la recherche doit être encouragée en donnant un vrai statut à des chercheurs qui reproduisent des études. Nous aimerions voir les versions numériques des documents mis à jour de manière dynamique pour afficher une mention “Reproduit par …” sous les noms des auteurs de la recherche d’origine ou “Pas encore reproduit” jusqu’à ce qu’il soit reproduit – Hubbard et Carriquiry

Un rôle important pour les statistiques dans la recherche est le résumé et l’accumulation d’informations. Si les répétitions ne donnent pas les mêmes résultats, il ne s’agit pas nécessairement d’une crise, mais d’un élément naturel du processus évolutif de la science. L’objectif de la méthodologie scientifique devrait être orienter cette évolution vers des descriptions toujours plus précises du monde et de son fonctionnement, et non vers une publication toujours plus poussée d’inférences, de conclusions ou de décisions – Amrhein et al.

Alternatives et compléments aux valeurs p

Un certain nombre de facteurs ne devraient plus être subordonnés à p <0,05. Ceux-ci incluent les preuves antérieures pertinentes, la plausibilité du mécanisme, la conception de l’étude et la qualité des données ainsi que les coûts et les avantages réels qui déterminent quels effets sont scientifiquement importants. Le contexte scientifique de l’étude est important, ce qui devrait guider son interprétation – McShane et al.

Des termes tels que signification associé aux valeurs p et confiance aux estimations d’intervalle induisent les utilisateurs en erreur dans des affirmations trop confiantes. Nous proposons aux chercheurs de penser que les valeurs p mesurent la compatibilité entre les hypothèses et les données et interprètent les estimations d’intervalle comme des intervalles de compatibilité plutôt que des intervalles de confiance – Amrhein et al.

Les valeurs p continues ne doivent être utilisées que conjointement avec le risque positif faux (FPR), ce qui répond à la question suivante: si vous observez une valeur p significative après une seule expérience non biaisée, quelle est la probabilité que votre résultat soit un faux positif ? – Colquhoun