| X¯- 100 |
Fisher pensait que la valeur p pourrait être interprétée comme une mesure continue de la preuve par rapport à l'hypothèse nulle . Il n'y a pas de valeur fixe particulière à laquelle les résultats deviennent «significatifs». J'essaie généralement de faire comprendre cela aux gens en faisant remarquer que, à toutes fins utiles, p = 0,049 et p = 0,051 constituent une quantité identique d'éléments de preuve contre l'hypothèse nulle (voir la réponse de @ Henrik ici ). .
D'autre part, Neyman & Pearson pensait que vous pourriez utiliser la valeur p dans le cadre d' un processus décisionnel formalisé . À la fin de votre enquête, vous devez soit rejeter l'hypothèse nulle, soit ne pas rejeter l'hypothèse nulle. De plus, l'hypothèse nulle pourrait être vraie ou non vraie. Ainsi, il y a quatre possibilités théoriques (bien que, dans une situation donnée, il n'y en a que deux): vous pouvez prendre une décision correcte (ne pas rejeter une hypothèse vraie - ou rejeter une hypothèse fausse - nulle), ou vous pouvez créer un type Erreur I ou de type II (en refusant un vrai null ou en omettant de rejeter une hypothèse faux faux, respectivement). (Notez que la valeur p n’est pas la même chose que le taux d’erreur de type I, dont je discute iciαp < α
Les approches Fisherian et Neyman-Pearson ne sont pas les mêmes . L'argument central du cadre Neyman-Pearson est que, à la fin de votre étude, vous devez prendre une décision et vous en aller. Un chercheur aurait jadis approché Fisher avec des résultats «non significatifs», lui demandant ce qu’il devait faire, et Fisher avait déclaré: «allez chercher plus de données».
Personnellement, je trouve l’élégante logique de l’approche Neyman-Pearson très séduisante. Mais je ne pense pas que ce soit toujours approprié. À mon avis, au moins deux conditions doivent être remplies avant que le cadre Neyman-Pearson soit pris en compte:
- Il devrait exister une autre hypothèse spécifique ( ampleur de l'effet ) qui vous tient à coeur pour une raison quelconque. (Je ne me soucie pas de la taille de l'effet, de la raison de votre choix, qu'il soit fondé ou cohérent, etc., mais que vous en avez un.)
- Il devrait y avoir une raison de penser que l'effet sera «significatif» si l'hypothèse alternative est vraie. (En pratique, cela signifie généralement que vous avez effectué une analyse de l'alimentation et que vous avez suffisamment de données.)
Lorsque ces conditions ne sont pas remplies, la valeur p peut toujours être interprétée conformément aux idées de Fisher. De plus, il me semble probable que la plupart du temps, ces conditions ne sont pas remplies. Voici quelques exemples simples qui vous viennent à l’esprit, où les tests sont exécutés, mais les conditions ci-dessus ne sont pas remplies:
- ANOVA omnibus pour un modèle de régression multiple (il est possible de comprendre comment tous les paramètres de pente non nuls supposés s'unissent pour créer un paramètre de non-centralité pour la distribution F , mais ce n'est pas intuitif à distance et je doute que quiconque le fait)
- W
- la valeur d'un test d'homogénéité de variance (par exemple, test de Levene ; mêmes commentaires que ci-dessus)
- tout autre test pour vérifier les hypothèses, etc.
- tests t de covariables autres que la variable explicative d'intérêt principal dans l'étude
- recherche initiale / exploratoire (p. ex. études pilotes)