Dénoter p le p-valeur de votre test (sous forme de variable aléatoire) et corrigez certains α. Appelez un résultat de test significatif ou positif lorsquep≤α. On aP(p≤α|H0)≤α. De plus, laissezβ être tel que P(p>α|H1)≤β. alors1−β est la puissance du test.
Traiter H0 et H1 comme événements (complémentaires), le théorème de Bayes donne:
P(H1|p≤α)P(H0|p≤α)=P(p≤α|H1)P(p≤α|H0)⋅P(H1)P(H0)≥1−βα⋅P(H1)P(H0)
Cela montre que les probabilités de publication pour
H1 sont une version mise à l'échelle des cotes antérieures, avec la force de la mise à l'échelle en faveur de
H1 augmentant avec
1−β. Cela signifie que nous apprenons plus d'un test positif lorsque
1−β est large.
Pour plus d'illustration, regardez les intervalles de confiance (IC). On peut affirmer qu'une plus grande taille d'échantillon rendra l'IC plus étroit et donc, si le test était significatif pour un échantillon plus petit, il sera également significatif pour l'échantillon plus grand. Cependant, l'emplacement du CI peut également changer lorsque nous incluons plus de données dans notre échantillon, ce qui peut rendre le résultat non significatif. Il est également concevable que l'échantillon le plus grand ait une erreur standard beaucoup plus grande et donc l'IC deviendra en fait plus large. On pourrait dire qu'une taille d'échantillon plus grande donne aux faits plus de possibilités de faire leurs preuves.
Il y a eu récemment une discussion intéressante sur l'interprétation de p-valeurs, voir par exemple:
[1] Colquhoun, "Une enquête sur le taux de fausses découvertes et la mauvaise interprétation des valeurs de p", Royal Society Open Science, 2014
[2] Colquhoun, "La reproductibilité de la recherche et la mauvaise interprétation des valeurs P", 2017, http://www.biorxiv.org/content/early/2017/08/07/144337
[3] "Que dirait Cohen? Un commentaire sur p<.005", https://replicationindex.wordpress.com/2017/08/02/what-would-cohen-say-a-comment-on-p-005/
Concernant votre résultat particulier, je ne suis pas qualifié pour le juger. En utilisant uniquement votrep-valeur et la classification de [2], elle se situe entre "preuves faibles: mérite un autre regard" et "preuves modérées pour un effet réel".