Pourquoi les valeurs p sont-elles uniformément distribuées sous l'hypothèse nulle?


115

Récemment, j'ai trouvé dans un article de Klammer et al. une déclaration indiquant que les valeurs-p doivent être uniformément distribuées. Je crois les auteurs, mais je ne comprends pas pourquoi.

Klammer, AA, Park, CY et Stafford Noble, W. (2009) Étalonnage statistique de la fonction SEQUEST XCorr . Journal of Proteome Research . 8 (4): 2106-2113.


24
Ceci est immédiat à partir de la définition de la valeur p en tant que transformée intégrale de probabilité de la statistique de test utilisant la distribution sous l'hypothèse nulle. La conclusion nécessite que la distribution soit continue. Lorsque la distribution est discrète (ou comporte des atomes), la distribution des valeurs p est également discrète et ne peut donc être qu'approximativement uniforme.
whuber

1
@ Whuber a donné la réponse qui était quelque chose que je soupçonnais. J'ai demandé à la référence originale juste pour m'assurer que quelque chose n'était pas perdu dans la traduction. D'habitude, peu importe que l'article soit spécifique ou non, le contenu statistique est toujours
visible

10
Seulement quand est vraiH0 ! ... et plus strictement, seulement quand elle est continue (bien que quelque chose du genre soit vrai dans le cas non continu; je ne connais pas le mot juste pour le cas le plus général; ce n'est pas l'uniformité). Ensuite, il découle de la définition de p-valeur.
Glen_b

2
Cela pourrait être vu comme une variante du principe fondamental de la mécanique statistique (le fait que les élèves ont souvent la même difficulté à accepter) que tous les micro-états d’un système physique ont une probabilité égale.
DWin

5
Qu'en est-il de l'allégation dans cet article: plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0076010 ?

Réponses:


83

Pour clarifier un peu. La valeur p est uniformément distribuée lorsque l'hypothèse nulle est vraie et que toutes les autres hypothèses sont satisfaites. La raison en est vraiment la définition de alpha comme la probabilité d'une erreur de type I. Nous voulons que la probabilité de rejeter une hypothèse nulle soit alpha, nous rejetons lorsque le observé , la seule façon que cela se produise pour toute valeur de alpha est lorsque la p-valeur provient d'un uniforme. Distribution. L’utilisation de la bonne distribution (normale, t, f, chisq, etc.) a pour but de transformer la statistique de test en une valeur p uniforme. Si l'hypothèse nulle est fausse, la distribution de la valeur p sera (espérons-le) davantage pondérée vers 0.p-value<α

Les fonctions Pvalue.norm.simet Pvalue.binom.simdu package TeachingDemos pour R simulent plusieurs ensembles de données, calculent les valeurs p et les tracent pour illustrer cette idée.

Regarde aussi:

Murdoch, D, Tsai, Y et Adcock, J (2008). Les valeurs P sont des variables aléatoires. Le statisticien américain , 62 , 242-245.

pour plus de détails.

Modifier:

Puisque les gens lisent encore cette réponse et commentent, j'ai pensé que j'adresserais le commentaire de @ whuber.

Il est vrai qu'en utilisant une hypothèse nulle composée comme , les p-valeurs ne seront distribuées uniformément que lorsque les 2 moyennes sont exactement égales et ne seront pas uniformes si est une valeur inférieure à . Cela peut être facilement vu en utilisant la fonction et en la configurant pour faire un test unilatéral et en simulant avec la simulation et des hypothèses supposées signifie différentes (mais dans la direction de rendre le null vrai).μ 1 μ 2μ1μ2μ1μ2Pvalue.norm.sim

En ce qui concerne la théorie statistique, cela n'a pas d'importance. Si je prétendais que je suis plus grand que tous les membres de votre famille, envisagez de vérifier cette affirmation en comparant ma taille à celle de chaque membre de votre famille, un à la fois. Une autre option serait de trouver le membre de votre famille qui est le plus grand et de comparer sa taille avec la mienne. Si je suis plus grand que cette personne, alors je suis plus grand que les autres et mon affirmation est vraie. Si je ne suis pas plus grand que cette personne, alors mon affirmation est fausse. Tester un NULL composite peut être vu comme un processus similaire, plutôt que de tester toutes les combinaisons possibles où nous pouvons tester uniquement la partie égalité, car si nous pouvons rejeter cela, en faveur deμ 1 = μ 2 μ 1 > μ 2 μ 1 < μ 2 μ 1 < μ 2 α μ 1 μ 2 αμ1μ2μ1=μ2μ1>μ2alors nous savons que nous pouvons aussi rejeter toutes les possibilités de . Si nous examinons la distribution des valeurs p dans les cas où la distribution ne sera pas parfaitement uniforme mais comportera plus de valeurs plus proches de 1 que de 0, ce qui signifie que la probabilité d'une erreur de type I sera inférieure à la valeur sélectionnée , ce qui en fait un test conservateur. L'uniforme devient la distribution limite à mesure que se rapproche deμ1<μ2μ1<μ2αμ1μ2(Les gens qui sont plus au courant de la théorie de la statistique pourraient probablement mieux le dire en termes de supremum de distribution ou quelque chose comme ça). Donc, en construisant notre test en supposant que la partie égale de la valeur null même lorsque la valeur null est composite, nous concevons notre test de manière à avoir une probabilité d'erreur de type I égale à au plus pour toutes les conditions dans lesquelles la valeur null est vraie.α


Désolé pour la faute de frappe que j'ai introduite (devrait lire \leqdans TeX)!
chl

1
L'article "Les valeurs P sont des variables aléatoires" est vraiment intéressant. Existe-t-il un livre d'introduction qui respecte les principes énoncés dans l'article?
Alessandro Jacopson le

8
Malgré le commentaire que j'ai posté sur la question, j'ai depuis réalisé que la conclusion n'était pas vraie, sauf dans des cas spéciaux. Le problème se produit avec des hypothèses composites, telles que . "L’hypothèse nulle est vraie" couvre à présent de nombreuses possibilités, telles que le cas . Dans un tel cas, les valeurs p ne seront pas uniformément distribuées. Je suppose que l'on pourrait créer des situations (quelque peu artificielles) dans lesquelles, quel que soit l'élément de l'hypothèse nulle, la distribution des valeurs p ne serait jamais aussi uniforme. μ 1 = μ 2 - 10 6μ1μ2μ1=μ2106
whuber

1
@Greg Snow: Je pense que la distribution des p-values ​​n'est pas toujours uniforme, elle est uniforme quand elles sont calculées à partir d'une distribution continue, mais pas quand elles sont calculées à partir d'une distribution discrète

1
J'ai élargi la réponse ci-dessus pour répondre au commentaire de @whuber.
Greg Snow

26

Sous l'hypothèse nulle, votre statistique de test a la distribution (par exemple, normale standard). Nous montrons que la valeur a une distribution de probabilité en d’autres termes, est distribué uniformément. Ceci est valable tant que est inversible, une condition nécessaire est que ne soit pas une variable aléatoire discrète.TF(t)P=F(T)

Pr(P<p)=Pr(F1(P)<F1(p))=Pr(T<t)p;
PF()T

Ce résultat est général: la distribution d'un CDF inversible d'une variable aléatoire est uniforme sur .[0,1]


8
vous voudrez peut-être reformuler votre dernier commentaire, ce qui est un peu déroutant. Les CDF continus n'ont pas nécessairement d'inverse (approprié). (Pouvez-vous penser à un contre-exemple?) Votre preuve nécessite donc des conditions supplémentaires. La méthode standard pour contourner ce problème consiste à définir le pseudo-inverse . L'argument devient aussi plus subtil. F(y)=inf{x:F(x)y}
cardinal

1
Pour savoir comment utiliser des inverses généralisés, voir link.springer.com/article/10.1007%2Fs00186-013-0436-7 (en particulier, F (T) n’est uniforme que si F est continu. Peu importe que F soit inversible ou non. ne pas). Concernant votre définition de p-value: je ne pense pas que ce soit toujours 'F (T)'. C'est la probabilité (sous le zéro) de prendre une valeur plus extrême que celle observée, donc cela pourrait aussi être la fonction de survie (juste pour être précis ici).
Marius Hofert

n'est-il pas le CDF? F(t)
Zyxue

@zyxue Oui, la cdf est parfois appelée "distribution".
Mikario

6

Soit la variable aléatoire avec la fonction de distribution cumulative pour tout . En supposant que soit inversible, nous pouvons déduire la distribution de la valeur aléatoire p comme suit:TF(t)Pr(T<t)tFP=F(T)

Pr(P<p)=Pr(F(T)<p)=Pr(T<F1(p))=F(F1(p))=p,

à partir de laquelle nous pouvons conclure que la distribution de est uniforme sur .P[0,1]

Cette réponse est similaire à celle de Charlie, mais évite de devoir définir .t=F1(p)


Comme vous avez défini F, P = F (T) = Pr (T <T) = 0?
TrynnaDoStat le

Pas exactement, le "remplacement syntaxique" de est quelque peu trompeur. Formellement parlant, est la variable aléatoire définie parF ( T ) ( F ( T ) ) ( ω ) = F ( T ( ω ) ) : = Pr ( T < T ( ω ) )F(T)=Pr(T<T)F(T)(F(T))(ω)=F(T(ω)):=Pr(T<T(ω))
jII

4

Simulation simple de la distribution des valeurs p en cas de régression linéaire entre deux variables indépendantes:

# estimated model is: y = a0 + a1*x + e

obs<-100                # obs in each single regression
Nloops<-1000            # number of experiments
output<-numeric(Nloops) # vector holding p-values of estimated a1 parameter from Nloops experiments

for(i in seq_along(output)){

x<-rnorm(obs) 
y<-rnorm(obs)

# x and y are independent, so null hypothesis is true
output[i] <-(summary(lm(y~x)) $ coefficients)[2,4] # we grab p-value of a1

if(i%%100==0){cat(i,"from",Nloops,date(),"\n")} # after each 100 iteration info is printed

}

plot(hist(output), main="Histogram of a1 p-values")
ks.test(output,"punif") # Null hypothesis is that output distr. is uniform

7
Pourriez-vous préciser comment cela répond à la question? Bien que sa sortie illustre un cas particulier de l’affirmation, aucune quantité de code ne serait capable de répondre à la question de savoir pourquoi ? Cela nécessite des explications supplémentaires.
whuber

-1

Je ne pense pas que la plupart de ces réponses répondent à la question en général. Ils sont limités au cas où il existe une hypothèse nulle simple et lorsque la statistique de test a un CDF inversible (comme dans une variable aléatoire continue ayant un CDF strictement croissant). Ces cas sont les cas sur lesquels la plupart des gens ont tendance à se soucier avec le test z et le test t, bien que pour tester une moyenne binomiale (par exemple), on ne dispose pas d'un tel CD. Ce qui est fourni ci-dessus semble correct à mes yeux pour ces cas restreints.

Si les hypothèses nulles sont composites, les choses sont un peu plus compliquées. La preuve la plus générale de ce fait que j'ai vue dans le cas composite en utilisant certaines hypothèses concernant les régions de rejet est fournie dans "Test des hypothèses statistiques" de Leshmann et Romano, pages 63-64. Je vais essayer de reproduire l'argument ci-dessous ...

Nous testons une hypothèse nulle par rapport à une autre hypothèse basée sur une statistique de test, que nous désignons comme la variable aléatoire . La statistique de test est supposée provenir d’une classe paramétrique, c’est-à-dire , où est un élément de la famille des distributions de probabilités , et est un espace de paramètres. L'hypothèse nulle et l'hypothèse alternative forment une partition de dans laquelle H0H1XXPθPθP{PθθΘ}ΘH0:θΘ0H1:θΘ1Θ

Θ=Θ0Θ1
Θ0Θ1=.

Le résultat du test peut être noté où pour tout ensemble nous définissons Ici est notre niveau de signification, et désigne la région de rejet du test pour le niveau de signification .

ϕα(X)=1Rα(X)
S
1S(X)={1,XS,0,XS.
αRαα

Supposons que les régions de rejet satisfassent le si . Dans ce cas de régions de rejet imbriquées, il est utile de déterminer non seulement si l'hypothèse nulle est rejetée à un niveau de signification donné , mais également de déterminer le niveau de signification le plus petit pour lequel l'hypothèse nulle serait rejetée. Ce niveau est connu sous le nom de valeur-p , ce nombre nous donne une idée de force des données (telles qu'elles sont décrites dans la statistique de test ) en contradiction avec l'hypothèse nulle .

RαRα
α<αα
p^=p^(X)inf{αXRα},
XH0

Supposons que pour certains et que . Supposons en outre que les régions de rejet obéissent à la propriété de nidification indiquée ci-dessus. Ensuite, ce qui suit est valable:XPθθΘH0:θΘ0Rα

  1. Si pour tout , puis pour , supθΘ0Pθ(XRα)α0<α<1θΘ0

    Pθ(p^u)ufor all0u1.

  2. Si pour nous avons pour tout , alors pour nous avons θΘ0Pθ(XRα)=α0<α<1θΘ0

    Pθ(p^u)=ufor all0u1.

Notez que cette première propriété nous indique simplement que le taux de faux positifs est contrôlé à en rejetant lorsque la valeur p est inférieure à , et que la deuxième propriété nous indique (avec une hypothèse supplémentaire) que les valeurs p sont uniformément réparties sous la valeur null. hypothèse.uu

La preuve est la suivante:

  1. Soit , et supposons que pour tout . Ensuite, par définition de , nous avons pour tout . Par monotonie et par hypothèse, il s'ensuit que pour tout . En laissant , il s’ensuit que .θΘ0supθΘ0Pθ(XRα)α0<α<1p^{p^u}{XRv}u<vPθ(p^u)Pθ(XRv)vu<vvuPθ(p^u)u

  2. Soit et supposons que pour tout . Puis , et par monotonie, il en résulte que . Considérant (1), il s'ensuit que . θΘ0Pθ(XRα)=α0<α<1{XRu}{p^(X)u}u=Pθ(XRu)Pθ(p^u)Pθ(p^(X)u)=u

Notez que l'hypothèse entre (2) ne tient pas lorsqu'une statistique de test est discrète, même si l'hypothèse nulle est simple plutôt que composite. Prenons par exemple avec et . C'est-à-dire lancer une pièce dix fois et vérifier si elle est juste vs biaisée vers les têtes (codée en 1). La probabilité de voir 10 têtes sur 10 lancers de pièces justes est de (1/2) ^ 10 = 1/1024. La probabilité de voir 9 ou 10 têtes sur 10 lancers de pièces est de 11/1024. Pour tout strictement compris entre 1/1024 et 11/1024, vous rejetteriez la valeur null si , mais nous n'avons pas ce nom pour les valeurs de quandXBinom(10,θ)H0:θ=.5H1:θ>0.5αX=10Pr(XRα)=ααθ=0.5 . Au lieu de cela pour un tel . Pr(XRα)=1/1024α


Doit préciser que la généralité prévue dans Lehmann et Romano concerne les régions de rejet général. Vous ne disposez toujours que de valeurs "valides" pour les valeurs nulles composites et les statistiques de test non continues.
Adam

-12

Si les valeurs p sont uniformément réparties sous le H0, cela signifie qu'il est tout aussi probable qu'une valeur p de 0,05 soit considérée comme une valeur p de 0,80, mais ce n'est pas vrai, car il est moins probable d'observer une valeur p. une valeur de 0,05 à une valeur de p de 0,80, car c’est précisément la définition de la distribution normale à partir de laquelle la valeur de p est prise. Par définition, il y aura plus d'échantillons entrant dans la fourchette de normalité qu'en dehors de celle-ci. Par conséquent, plus susceptibles de trouver des valeurs p plus grandes que les plus petites.


3
-1. C'est complètement faux. Je me demande qui a voté pour cela. Les valeurs de p au point H0 sont uniformément réparties.
amibe

1
-1. Cela n'a même pas assez de sens pour être qualifié de faux: "gamme de normalité" n'a pas de sens et les valeurs p n'ont intrinsèquement rien à voir avec des distributions normales.
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.