Rien de tel que de répondre à une question très ancienne, mais voici ...
Les valeurs p sont des tests d'hypothèses presque valides. Voici un extrait légèrement adapté tiré du livre de Jaynes sur la théorie des probabilités de 2003 (Expériences répétitives: probabilité et fréquence). Supposons que nous ayons une hypothèse nulle que nous souhaitons tester. Nous avons des données D et des informations avant I . Supposons qu'il existe une hypothèse non spécifiée H A avec laquelle nous testerons H 0 . Le rapport de cotes postérieur pour H A contre H 0 est alors donné par:H0DIHAH0HUNEH0
P( HUNE| réI)P( H0| réI)=P( HUNE| je)P( H0| je)× P( D | HUNEje)P( D | H0je)
Le premier terme à droite étant indépendant des données, les données ne peuvent influencer le résultat que via le second terme. Maintenant, nous pouvons toujours inventer une hypothèse alternative telle que P ( D | H A I I ) = 1 - une hypothèse "d’ajustement parfait". Ainsi, nous pouvons utiliser 1HUNEP( D | HUNEje) = 1 comme mesure de la mesure dans laquelle les données pourraient corroborer toute hypothèse alternative sur la valeur nulle. Il n’existe pas d’hypothèse alternative selon laquelle les données pourraient corroborerH0de plus de11P( D | H0je)H0 . Nous pouvons également restreindre la classe des alternatives et le changement est que le1est remplacé par la vraisemblance maximisée (y compris les constantes de normalisation) au sein de cette classe. SiP(D|H0I)commence à devenir trop petit, nous commençons à douter du zéro, car le nombre d'alternatives entreH0etHAaugmente (y compris certaines avec des probabilités a priori non négligeables). Mais c’est à peu près ce qui est fait avec les valeurs p, mais à une exception près: nous ne calculons pas la probabilité pourt(1P( D | H0je)1P( D | H0je)H0HA pour une statistique t ( D ) et une "mauvaise" région de la statistique. Nous calculons la probabilité de D - les informations dont nous disposons, plutôt que d’un sous-ensemble de celles-ci, t ( D ) .t(D)>t0t(D)Dt(D)
Une autre raison pour laquelle les utilisateurs utilisent les valeurs p est qu’elles s’apparentent souvent à un test d’hypothèse «approprié», mais peuvent être plus faciles à calculer. Nous pouvons montrer cela avec l'exemple très simple du test de la moyenne normale avec une variance connue. Nous avons des données avec un modèle supposée x i ~ N o r m a l ( μ , σ 2 ) (partie de l'information avant I ). Nous voulons tester H 0 : μ = μ 0D≡{x1,…,xN}xi∼Normal(μ,σ2)IH0:μ=μ0. Ensuite, nous avons, après un petit calcul:
P(D|H0I)=(2πσ2)−N2exp(−N[s2+(x¯¯¯−μ0)2]2σ2)
Où ets2=1x¯¯¯=1N∑Ni=1xi. Cela montre que la valeur maximale deP(D|H0I)sera atteinte lorsqueμ0= ¯ x . La valeur maximisée est:s2=1N∑Ni=1(xi−x¯¯¯)2P(D|H0I)μ0=x¯¯¯
P(D|HAI)=(2πσ2)−N2exp(−Ns22σ2)
Nous prenons donc le rapport de ces deux et nous obtenons:
P(D|HAI)P(D|H0I)=(2πσ2)−N2exp(−Ns22σ2)(2πσ2)−N2exp(−Ns2+N(x¯¯¯−μ0)22σ2)=exp(z22)
Où est la "statistique Z". Grandes valeurs de| z| jeter le doute sur l'hypothèse nulle, relative à l'hypothèse de la moyenne normale qui est le plus fortement étayée par les données. Nous pouvons également constater que ¯ x est la seule partie des données nécessaire et constitue donc une statistique suffisante pour le test.z=N−−√x¯¯¯−μ0σ|z|x¯¯¯
L’approche p-value de ce problème est presque la même, mais en sens inverse. Nous commençons par la statistique suffisante , et nous caluclate sa distribution d'échantillonnage, qui est facile de démontrer que ¯ X ~ N o r m a l ( μ , σ 2x¯¯¯- où j'ai utilisé une lettre majuscule pour distinguer la variable aléatoire¯Xde la valeur observée¯x. Maintenant, nous devons trouver une région qui jette un doute sur l'hypothèse nulle: on voit facilement qu'il s'agit des régions où| ¯X-μ0| est large. Nous pouvons donc calculer la probabilité que| ¯X-μ0| ≥| ¯x-μ0| comme une mesure de la distance entre les données observées et l'hypothèse nulle. Comme auparavant, ceci est un calcul simple, et nous obtenons:X¯¯¯¯∼Normal(μ,σ2N)X¯¯¯¯x¯¯¯|X¯¯¯¯−μ0||X¯¯¯¯−μ0|≥|x¯¯¯−μ0|
= 1 - P [ - √
p-value=P(|X¯¯¯¯−μ0|≥|x¯¯¯−μ0||H0)
=1-P(-|z|≤Z≤|z||H0)=2[1-Φ(|z|)]=1−P[−N−−√|x¯¯¯−μ0|σ≤N−−√X¯¯¯¯−μ0σ≤N−−√|x¯¯¯−μ0|σ|H0]
=1−P(−|z|≤Z≤|z||H0)=2[1−Φ(|z|)]
Maintenant, nous pouvons voir que la valeur p est une fonction décroissante monotone de , ce qui signifie que nous obtenons essentiellement la même réponse que le test d’hypothèse "correct". Le rejet lorsque la valeur p est inférieure à un certain seuil revient au même que le rejet lorsque la probabilité postérieure est supérieure à un certain seuil. Cependant, notez que pour faire le test approprié, nous devions définir la classe de solutions de remplacement et maximiser la probabilité pour cette classe. Pour la valeur p, nous devons trouver une statistique, calculer sa distribution d'échantillonnage et l'évaluer à la valeur observée. Dans un certain sens, choisir une statistique revient à définir l’hypothèse alternative que vous envisagez.|z|
Bien que les deux choses soient faciles à faire dans cet exemple, elles ne le sont pas toujours dans des cas plus compliqués. Dans certains cas, il peut être plus facile de choisir la bonne statistique à utiliser et de calculer sa distribution d'échantillonnage. Dans d’autres, il peut être plus facile de définir la classe d’alternatives et de la maximiser.
Cet exemple simple représente une grande quantité de tests basés sur des valeurs p, tout simplement parce que beaucoup de tests d'hypothèses sont de la variété "normale approximative". Il fournit également une réponse approximative à votre problème de pièces (en utilisant l'approximation normale du binôme). Cela montre également que les valeurs p dans ce cas ne vous égareront pas, du moins en termes de test d'une seule hypothèse. Dans ce cas, nous pouvons dire qu'une valeur p est une mesure de la preuve par rapport à l'hypothèse nulle.
0.193.870.05196.830.12.330.052.78