Au cours des dernières années, divers chercheurs ont soulevé un problème préjudiciable de test d'hypothèse scientifique, surnommé "degré de liberté du chercheur", ce qui signifie que les scientifiques ont de nombreux choix à faire lors de leur analyse qui biaisent vers la recherche avec une valeur p <5%. Ces choix ambigus sont, par exemple, le cas à inclure, ce cas est classé comme aberrant, exécutant de nombreuses spécifications de modèle jusqu'à ce que quelque chose apparaisse, ne publie pas de résultats nuls, etc. (l'article qui a déclenché ce débat en psychologie est ici , voir un article Slate populaire et un débat de suivi par Andrew Gelman ici , et le magazine Time aborde également ce sujet ici .)
Tout d'abord , une question de clarification:
Le magazine Time a écrit:
"Une puissance de 0,8 signifie que sur dix vraies hypothèses testées, seules deux seront exclues car leurs effets ne sont pas repris dans les données;"
Je ne sais pas comment cela s'inscrit dans la définition de la fonction de puissance que j'ai trouvée dans le manuel, qui est la probabilité de rejeter le null en fonction du paramètre . Avec différents nous avons un pouvoir différent, donc je ne comprends pas très bien la citation ci-dessus.θ
Deuxièmement , certaines implications de la recherche:
Dans mon domaine de science politique / économie, les universitaires utilisent simplement toutes les données pays-année disponibles. Ne devrions-nous donc pas nous préoccuper ici de jouer des échantillons?
Le problème de l'exécution de plusieurs tests mais de la communication d'un seul modèle peut-il être résolu simplement par le fait que quelqu'un d'autre dans la discipline réexaminera votre document et vous frappera immédiatement pour ne pas avoir de résultats solides? Anticipant cela, les chercheurs de mon domaine sont plus susceptibles d'inclure une
robustness check
section, où ils montrent que plusieurs spécifications de modèle ne changent pas le résultat. Est-ce suffisant?Andrew Gelman et d'autres soulèvent le point que quelles que soient les données, il serait toujours possible de trouver et de publier un "modèle" qui n'est pas vraiment là. Mais cela ne devrait pas être un sujet de préoccupation, étant donné que tout "modèle" empirique doit être soutenu par une théorie, et les théories rivales au sein d'une discipline s'engageront simplement dans un débat / une course pour trouver quel camp est capable de trouver plus de "modèles". dans divers endroits. Si un motif est vraiment faux, alors la théorie derrière sera rapidement annulée lorsqu'il n'y a pas de motif similaire dans d'autres échantillons / paramètres. N'est-ce pas ainsi que la science progresse?
En supposant que la tendance actuelle des revues pour un résultat nul se développera réellement, existe-t-il un moyen pour nous d'agréger tous les résultats nuls et positifs ensemble et de faire une inférence sur la théorie qu'ils essaient tous de tester?