Ce que nous appelons le piratage informatique consiste à appliquer un test de signification plusieurs fois et à ne rapporter que les résultats de signification. Que ce soit bon ou mauvais dépend de la situation.
Pour expliquer, réfléchissons aux effets réels en termes bayésiens, plutôt qu'aux hypothèses nulles et alternatives. Tant que nous croyons que nos effets d'intérêt proviennent d'une distribution continue, alors nous savons que l'hypothèse nulle est fausse. Cependant, dans le cas d'un test bilatéral, nous ne savons pas s'il est positif ou négatif. Sous cet éclairage, nous pouvons considérer les valeurs de p pour les tests bilatéraux comme une mesure de la force de la preuve que notre estimation a la bonne direction (c.-à-d. Effet positif ou négatif).
p<α
Maintenant, réfléchissez à ce qui se passe lorsque vous revenez en arrière pour obtenir plus de données. Chaque fois que vous obtenez plus de données, votre probabilité d'obtenir la bonne direction conditionnelle à des données suffisantes ne fait qu'augmenter. Donc, dans ce scénario, nous devons réaliser qu'en obtenant plus de données, bien que nous augmentions en fait la probabilité d'une erreur de type I, nous réduisons également la probabilité de conclure par erreur dans la mauvaise direction.
Prenez cela en contraste avec l'abus le plus typique du piratage informatique; nous testons des centaines de tailles d'effet qui ont une bonne probabilité d'être très petites et ne rapportons que les significatives. Notez que dans ce cas, si tous les effets sont faibles, nous avons près de 50% de chances de se tromper de direction lorsque nous déclarons la signification.
Bien sûr, les valeurs de p produites à partir de ce double-down de données devraient toujours venir avec un grain de sel. Bien que, en général, vous ne devriez pas avoir de problème avec les personnes qui collectent plus de données pour être plus sûr de la taille d'un effet, cela pourrait être abusé d'autres manières. Par exemple, un PI intelligent pourrait se rendre compte qu'au lieu de collecter les 100 points de données à la fois, il pourrait économiser beaucoup d'argent et augmenter la puissance en collectant d'abord 50 points de données, en analysant les données, puis en collectant les 50 suivants si ce n'est pas significatif . Dans ce scénario, ils augmentent la probabilité de se tromper dans la direction de l'effet à condition de déclarer la signification, car ils sont plus susceptibles de se tromper dans la direction de l'effet avec 50 points de données qu'avec 100 points de données.
Et enfin, considérez les implications de ne pas obtenir plus de données lorsque nous avons un résultat insignifiant. Cela impliquerait de ne jamais collecter plus d'informations sur le sujet, ce qui ne fera pas vraiment avancer la science, n'est-ce pas? Une étude insuffisante tuerait un champ entier.