La valeur P est définie comme la probabilité d'obtenir une statistique de test au moins aussi extrême que ce qui est observé, en supposant que l'hypothèse nulle est vraie. En d'autres termes,
set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5))
hist(bimodal, breaks=100)
Et supposons que nous observons une valeur statistique de test de 60. Et ici, nous savons d'après l'image que cette valeur est très peu probable . Donc, idéalement, je voudrais une procédure statistique que j'utilise (disons, la valeur p) pour révéler cela. Mais si nous calculons la valeur de p telle que définie, nous obtenons une valeur de p assez élevée
observed <- 60
# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993
Si je ne connaissais pas la distribution, je conclurais que ce que j'ai observé est simplement par hasard. Mais nous savons que ce n'est pas vrai.
Je suppose que la question que je me pose est la suivante: pourquoi, lors du calcul de la valeur de p, calculons-nous la probabilité des valeurs "au moins aussi extrêmes" que celles observées? Et si je rencontre une situation comme celle que j'ai simulée ci-dessus, quelle est la solution alternative?