La phrase p- achalandage (aussi: "dragage de données" , "espionnage" ou "pêche") fait référence à divers types de fautes statistiques dans lesquelles les résultats deviennent artificiellement statistiquement significatifs. Il existe de nombreuses façons d'obtenir un résultat "plus significatif", notamment, sans s'y limiter:
- analyser uniquement un sous-ensemble "intéressant" de données dans lequel un motif a été trouvé;
- le fait de ne pas s'ajuster correctement pour plusieurs tests , en particulier les tests post-hoc et de ne pas signaler les tests effectués qui n'étaient pas significatifs;
- essayer différents tests de la même hypothèse , par exemple à la fois un test paramétrique et un test non paramétrique ( il y a une discussion à ce sujet dans ce fil ), mais en ne rapportant que le plus significatif;
- expérimenter avec l'inclusion / exclusion de points de données , jusqu'à ce que le résultat souhaité soit obtenu. Une opportunité se présente lorsque les "valeurs aberrantes de nettoyage des données", mais aussi lorsque vous appliquez une définition ambiguë (par exemple, dans une étude économétrique de "pays développés", différentes définitions donnent des ensembles de pays différents), ou des critères d'inclusion qualitatifs (par exemple, dans une méta-analyse peut être un argument finement équilibré si la méthodologie d’une étude particulière est suffisamment robuste pour être incluse);
- L'exemple précédent concerne les arrêts facultatifs , c'est-à-dire l'analyse d'un ensemble de données et la décision de collecter davantage de données ou non, en fonction des données collectées jusqu'à présent ("c'est presque important, mesurons trois autres étudiants!") sans tenir compte de cela. dans l'analyse;
- expérimentation au cours de l'ajustement du modèle , en particulier les covariables à inclure, mais aussi en ce qui concerne les transformations de données / la forme fonctionnelle.
Nous savons donc que le p- achalandage peut être fait. Il est souvent cité comme l'un des "dangers de la p-valeur " et a été mentionné dans le rapport ASA sur la signification statistique, discuté ici sur Cross Validated , nous savons donc aussi que c'est une mauvaise chose. Bien que certaines motivations douteuses et (en particulier dans la compétition pour la publication académique) des motivations contre-productives soient évidentes, je suppose qu’il est difficile de comprendre pourquoi cela est fait, qu’il s’agisse d’une faute délibérée ou d’une simple ignorance. Quelqu'un rapportant des valeurs p à partir d'une régression pas à pas (parce qu'ils trouvent que les procédures pas à pas produisent "de bons modèles", mais ne sont pas au courant du prétendu p-values sont invalidés) est dans ce dernier camp, mais l'effet est encore p -hacking sous le dernier de mes points ci - dessus.
Il y a certainement des preuves que p- achalandage «existe», par exemple Head et al (2015) recherchent des signes révélateurs d'infection de la littérature scientifique, mais quel est l'état actuel de nos bases de données à ce sujet? Je suis conscient que l'approche adoptée par Head et al ne s'est pas déroulée sans controverse. Par conséquent, l'état actuel de la littérature, ou de la pensée générale de la communauté universitaire, serait intéressant. Par exemple avons-nous une idée de:
- À quel point est-il répandu et dans quelle mesure pouvons-nous différencier son occurrence du biais de publication ? (Cette distinction est-elle même significative?)
- Est - ce que les modèles en p -hacking varient entre les champs académiques?
- Avons-nous une idée des mécanismes les plus courants (parmi lesquels figurent dans les points précédents) les mécanismes de p- achalandage? Certaines formes se sont-elles révélées plus difficiles à détecter que d'autres parce qu'elles sont "mieux déguisées"?
Références
Chef, ML, Holman, L., Lanfear, R., Kahn, AT et Jennions, MD (2015). L'étendue et les conséquences de p -hacking dans la science . PLoS Biol , 13 (3), e1002106.