Pourquoi les gens utilisent-ils les valeurs p au lieu de calculer la probabilité du modèle à partir des données?


43

En gros, une valeur-p donne une probabilité du résultat observé d'une expérience étant donné l'hypothèse (modèle). Ayant cette probabilité (valeur p), nous voulons juger notre hypothèse (quelle est sa probabilité). Mais ne serait-il pas plus naturel de calculer la probabilité de l'hypothèse en fonction du résultat observé?

En plus de détails. Nous avons une pièce de monnaie. Nous le retournons 20 fois et nous obtenons 14 têtes (14 sur 20, c’est ce que j’appelle "le résultat de l’expérience"). Maintenant, notre hypothèse est que la pièce est juste (les probabilités de tête et de queue sont égales). Maintenant, nous calculons la valeur p, qui est égale à la probabilité d'obtenir 14 têtes ou plus sur 20 lancers de pièce. OK, maintenant nous avons cette probabilité (0,058) et nous voulons utiliser cette probabilité pour juger notre modèle (comment est-il probable que nous ayons une pièce équitable)?

Mais si nous voulons estimer la probabilité du modèle, pourquoi ne calculons-nous pas la probabilité du modèle compte tenu de l'expérience? Pourquoi calculons-nous la probabilité de l'expérience en fonction du modèle (valeur p)?


Il vous faudrait quand même modéliser votre expérience pour pouvoir calculer la fonction de vraisemblance.
Raskolnikov

11
Pete Dixon a écrit en 1998 un article intitulé "Pourquoi les scientifiques valorisent les valeurs p" ( psychonomic.org/backissues/1631/R382.pdf ), qui pourrait être une lecture informative. Le document de Glover & Dixon de 2004 sur le rapport de vraisemblance en tant que métrique de remplacement serait un bon suivi ( pbr.psychonomic-journals.org/content/11/5/791.full.pdf ).
Mike Lawrence

2
Mike, cela ressemble étrangement à une bonne réponse pour moi. Que fait-il dans les commentaires?
Matt Parker

John D Cook a posté une excellente réponse à une question que je trouve intéressante, à mon avis
doug

Les gens n'utilisent pas les valeurs-p, mais les statisticiens. (Je ne pouvais pas résister à une énonciation en disant que c'était aussi vrai. Bien sûr, une fois que vous commencez à qualifier correctement chaque nom, il perd son apparence.)
Wayne

Réponses:


31

Calculer la probabilité que l'hypothèse soit correcte ne cadre pas avec la définition fréquentiste de la probabilité (une fréquence à long terme), qui a été adoptée pour éviter la subjectivité supposée de la définition bayésienne de la probabilité. La vérité d'une hypothèse particulière n'est pas une variable aléatoire, elle est vraie ou non et n'a pas de fréquence à long terme. Il est en effet plus naturel de s’intéresser à la probabilité de vérité de l’hypothèse, ce qui est à mon humble avis pourquoi les valeurs p sont souvent interprétées à tort comme la probabilité que l’hypothèse nulle soit vraie. Une partie de la difficulté provient de la règle de Bayes: nous savons que pour calculer la probabilité postérieure qu’une hypothèse est vraie, vous devez commencer par une probabilité a priori que cette hypothèse est vraie.

Un bayésienne serait calculer la probabilité que l'hypothèse est vraie, compte tenu des données (et son / sa croyance avant).

Le choix entre les approches fréquentiste et bayésienne consiste essentiellement à déterminer si la subjectivité supposée de l'approche bayésienne est plus odieuse que le fait que l'approche fréquentiste ne donne généralement pas de réponse directe à la question que vous voulez poser - mais il y a place pour tous les deux.

Dans le cas où l'on demande si une pièce est juste, c'est-à-dire que la probabilité d'une tête est égale à la probabilité d'une queue, nous avons également un exemple d'une hypothèse que nous savons dans le monde réel est presque certainement fausse dès le départ. Les deux faces de la pièce étant non symétriques, nous devrions nous attendre à une légère asymétrie dans les probabilités de têtes et de queues. Ainsi, si la pièce "réussit" le test, cela signifie simplement que nous n'avons pas assez d'observations pour pouvoir concluez ce que nous savons déjà être vrai: la pièce est très légèrement biaisée!


4
En fait, la plupart des pièces sont en réalité très proches de la juste, et il est difficile de trouver un moyen physiquement plausible de les biaiser - voir par exemple stat.columbia.edu/~gelman/research/published/diceRev2.pdf
Ben Bolker

8
Être très proche de juste n'est pas la même chose qu'être exactement juste, c'est l'hypothèse nulle. Je soulignais l'une des particularités du test d'hypothèse, à savoir que nous savons souvent que l'hypothèse nulle est fausse, mais l'utiliser quand même. Un test plus pratique viserait à déterminer s'il existe des preuves que la pièce de monnaie est biaisée de manière significative, plutôt qu'une preuve significative que la pièce de monnaie est biaisée.
Dikran Marsupial

1
Bonjour, peut-être que je me trompe, mais je pensais qu'en science, on ne peut jamais dire que l'hypothèse alternative est vraie, on peut seulement dire que l'hypothèse nulle est rejetée et que vous acceptez l'hypothèse alternative. Pour moi, la valeur p reflète le risque que vous commettiez une erreur de type 1, c'est-à-dire que vous rejetteriez l'hypothèse alternative et accepteriez l'hypothèse nulle (disons p = 0,05 ou 5% du temps. Il est important de distinguer le type 1 error et type 2 error, ainsi que le rôle joué par le pouvoir dans la modélisation d'événements
user2238

3
Pour les tests fréquentistes, j’utiliserais une affirmation encore plus faible, selon laquelle soit vous "rejetez l’hypothèse nulle", soit vous "omettez de rejeter l’hypothèse nulle", et vous n’acceptez rien. Le point clé étant que (comme dans le cas de la pièce biaisée) vous savez parfois a priori que l'hypothèse nulle n'est pas vraie, vous n'avez simplement pas assez de données pour démontrer que ce n'est pas vrai; dans ce cas, il serait étrange de "l'accepter". Les tests Frequentist ont des taux d'erreur de type I et de type II, mais cela ne signifie pas qu'ils peuvent parler de la probabilité qu'une hypothèse soit vraie, comme dans le PO.
Dikran Marsupial

2
@ user2238 La valeur p représente le risque d'erreur de type I uniquement lorsque l'hypothèse nulle est "simple" (non composite) et qu'elle se trouve être vraie. Par exemple, dans un test unilatéral visant à déterminer si une pièce de monnaie est biaisée vers les queues ( ), l’utilisation d’une pièce de monnaie à deux têtes garantit la probabilité d’une erreur de type I de zéro, même si la valeur p de tout échantillon fini sera non nul. H0:p<0.5
whuber

18

Rien de tel que de répondre à une question très ancienne, mais voici ...

Les valeurs p sont des tests d'hypothèses presque valides. Voici un extrait légèrement adapté tiré du livre de Jaynes sur la théorie des probabilités de 2003 (Expériences répétitives: probabilité et fréquence). Supposons que nous ayons une hypothèse nulle que nous souhaitons tester. Nous avons des données D et des informations avant I . Supposons qu'il existe une hypothèse non spécifiée H A avec laquelle nous testerons H 0 . Le rapport de cotes postérieur pour H A contre H 0 est alors donné par:H0DIHAH0HUNEH0

P(HUNE|je)P(H0|je)=P(HUNE|je)P(H0|je)×P(|HUNEje)P(|H0je)

Le premier terme à droite étant indépendant des données, les données ne peuvent influencer le résultat que via le second terme. Maintenant, nous pouvons toujours inventer une hypothèse alternative telle que P ( D | H A I I ) = 1 - une hypothèse "d’ajustement parfait". Ainsi, nous pouvons utiliser 1HUNEP(|HUNEje)=1 comme mesure de la mesure dans laquelle les données pourraient corroborer toute hypothèse alternative sur la valeur nulle. Il n’existe pas d’hypothèse alternative selon laquelle les données pourraient corroborerH0de plus de11P(|H0je)H0 . Nous pouvons également restreindre la classe des alternatives et le changement est que le1est remplacé par la vraisemblance maximisée (y compris les constantes de normalisation) au sein de cette classe. SiP(D|H0I)commence à devenir trop petit, nous commençons à douter du zéro, car le nombre d'alternatives entreH0etHAaugmente (y compris certaines avec des probabilités a priori non négligeables). Mais c’est à peu près ce qui est fait avec les valeurs p, mais à une exception près: nous ne calculons pas la probabilité pourt(1P(|H0je)1P(|H0je)H0HA pour une statistique t ( D ) et une "mauvaise" région de la statistique. Nous calculons la probabilité de D - les informations dont nous disposons, plutôt que d’un sous-ensemble de celles-ci, t ( D ) .t(D)>t0t(D)Dt(D)

Une autre raison pour laquelle les utilisateurs utilisent les valeurs p est qu’elles s’apparentent souvent à un test d’hypothèse «approprié», mais peuvent être plus faciles à calculer. Nous pouvons montrer cela avec l'exemple très simple du test de la moyenne normale avec une variance connue. Nous avons des données avec un modèle supposée x i ~ N o r m a l ( μ , σ 2 ) (partie de l'information avant I ). Nous voulons tester H 0 : μ = μ 0D{x1,,xN}xiNormal(μ,σ2)IH0:μ=μ0. Ensuite, nous avons, après un petit calcul:

P(D|H0I)=(2πσ2)N2exp(N[s2+(x¯μ0)2]2σ2)

ets2=1x¯=1Ni=1Nxi. Cela montre que la valeur maximale deP(D|H0I)sera atteinte lorsqueμ0= ¯ x . La valeur maximisée est:s2=1Ni=1N(xix¯)2P(D|H0I)μ0=x¯

P(D|HAI)=(2πσ2)N2exp(Ns22σ2)

Nous prenons donc le rapport de ces deux et nous obtenons:

P(D|HAI)P(D|H0I)=(2πσ2)N2exp(Ns22σ2)(2πσ2)N2exp(Ns2+N(x¯μ0)22σ2)=exp(z22)

est la "statistique Z". Grandes valeurs de| z| jeter le doute sur l'hypothèse nulle, relative à l'hypothèse de la moyenne normale qui est le plus fortement étayée par les données. Nous pouvons également constater que ¯ x est la seule partie des données nécessaire et constitue donc une statistique suffisante pour le test.z=Nx¯μ0σ|z|x¯

L’approche p-value de ce problème est presque la même, mais en sens inverse. Nous commençons par la statistique suffisante , et nous caluclate sa distribution d'échantillonnage, qui est facile de démontrer que ¯ X ~ N o r m a l ( μ , σ 2x¯- où j'ai utilisé une lettre majuscule pour distinguer la variable aléatoire¯Xde la valeur observée¯x. Maintenant, nous devons trouver une région qui jette un doute sur l'hypothèse nulle: on voit facilement qu'il s'agit des régions où| ¯X-μ0| est large. Nous pouvons donc calculer la probabilité que| ¯X-μ0| | ¯x-μ0| comme une mesure de la distance entre les données observées et l'hypothèse nulle. Comme auparavant, ceci est un calcul simple, et nous obtenons:X¯Normal(μ,σ2N)X¯x¯|X¯μ0||X¯μ0||x¯μ0|

= 1 - P [ -

p-value=P(|X¯μ0||x¯μ0||H0)
=1-P(-|z|Z|z||H0)=2[1-Φ(|z|)]
=1P[N|x¯μ0|σNX¯μ0σN|x¯μ0|σ|H0]
=1P(|z|Z|z||H0)=2[1Φ(|z|)]

Maintenant, nous pouvons voir que la valeur p est une fonction décroissante monotone de , ce qui signifie que nous obtenons essentiellement la même réponse que le test d’hypothèse "correct". Le rejet lorsque la valeur p est inférieure à un certain seuil revient au même que le rejet lorsque la probabilité postérieure est supérieure à un certain seuil. Cependant, notez que pour faire le test approprié, nous devions définir la classe de solutions de remplacement et maximiser la probabilité pour cette classe. Pour la valeur p, nous devons trouver une statistique, calculer sa distribution d'échantillonnage et l'évaluer à la valeur observée. Dans un certain sens, choisir une statistique revient à définir l’hypothèse alternative que vous envisagez.|z|

Bien que les deux choses soient faciles à faire dans cet exemple, elles ne le sont pas toujours dans des cas plus compliqués. Dans certains cas, il peut être plus facile de choisir la bonne statistique à utiliser et de calculer sa distribution d'échantillonnage. Dans d’autres, il peut être plus facile de définir la classe d’alternatives et de la maximiser.

Cet exemple simple représente une grande quantité de tests basés sur des valeurs p, tout simplement parce que beaucoup de tests d'hypothèses sont de la variété "normale approximative". Il fournit également une réponse approximative à votre problème de pièces (en utilisant l'approximation normale du binôme). Cela montre également que les valeurs p dans ce cas ne vous égareront pas, du moins en termes de test d'une seule hypothèse. Dans ce cas, nous pouvons dire qu'une valeur p est une mesure de la preuve par rapport à l'hypothèse nulle.

0.193.870.05196.830.12.330.052.78


4
+1 "... le choix d'une statistique équivaut à définir l'hypothèse alternative que vous envisagez" me semble être une idée profonde.
whuber

kk

1
@ faheemmitha- vous avez raison à propos de l'explosion combinatoire, mais cela ne se produit pas pour l'approche que je décris (en fait, vous pouvez montrer que l'approche bayes définit efficacement les résidus). En effet, il suffit de définir la classe puis de la maximiser. Nous n'avons pas besoin d'évaluer chaque alternative, il suffit de trouver la meilleure.
probabilitéislogique

Pourquoi cette réponse est-elle un wiki de communauté?
amibe dit de réintégrer Monica

10

En tant qu'ancien universitaire qui a commencé à pratiquer, je vais tenter ma chance. Les gens utilisent les p-values ​​parce qu'elles sont utiles. Vous ne pouvez pas le voir dans les exemples classiques de pièces de monnaie. Bien sûr, ils ne sont pas vraiment solides sur le plan fondamental, mais peut-être que ce n'est pas aussi nécessaire que nous aimons penser lorsque nous pensons de manière académique. Dans le monde des données, nous sommes entourés d'un nombre infini de choses possibles à examiner. Avec les calculs de valeur p, vous avez besoin de tout ce dont vous avez besoin pour avoir une idée de ce qui est inintéressant et d’une heuristique numérique pour déterminer le type de données qui pourrait être intéressant (ainsi qu’un modèle de probabilité pour inintéressant). Ensuite, individuellement ou collectivement, nous pouvons analyser des choses assez simples, en rejetant l'essentiel des inintéressants. La valeur p nous permet de dire "Si je ne mets pas beaucoup de priorité à penser à cela autrement,


10

Votre question est un excellent exemple de raisonnement fréquentiste et est en réalité assez naturelle. J'ai utilisé cet exemple dans mes cours pour démontrer la nature des tests d'hypothèse. Je demande à un volontaire de prédire les résultats d'un tirage au sort. Peu importe le résultat, j'enregistre une estimation "correcte". Nous faisons cela à plusieurs reprises jusqu'à ce que la classe devienne suspecte.

Maintenant, ils ont un modèle nul en tête. Ils supposent que la pièce est juste. Étant donné que l'hypothèse de 50% est correcte lorsque tout est juste, chaque supposition correcte successive suscite de plus en plus de suspicions que le modèle de pièce équitable est incorrect. Quelques hypothèses correctes et ils acceptent le rôle du hasard. Après 5 ou 10 suppositions correctes, la classe commence toujours à se douter que le risque d'une pièce équitable est faible. Il en va ainsi de la nature des tests d’hypothèses dans le modèle fréquentiste.

C’est une représentation claire et intuitive de la prise en charge des hypothèses par les fréquentistes. C'est la probabilité des données observées étant donné que le zéro est vrai. C'est en fait tout à fait naturel, comme le montre cette expérience facile. Nous prenons pour acquis que le modèle est à 50-50, mais comme les preuves s’enrichissent, je rejette ce modèle et soupçonne qu’il ya autre chose en jeu.

Donc, si la probabilité de ce que j’observe est faible compte tenu du modèle que j’assume (la valeur p), j’ai une certaine confiance dans le rejet de mon modèle supposé. Ainsi, une valeur p est une mesure utile de la preuve par rapport à mon modèle supposé, en prenant en compte le rôle du hasard.

Un disclaimer: J'ai tiré cet exercice d'un article oublié depuis longtemps, ce dont je me souviens, était l'un des journaux de l'ASA.


Brett, c'est intéressant et un bon exemple. Le modèle ici semble être que les gens s'attendent à ce que l'ordre des têtes et des queues se produise de manière aléatoire. Par exemple, si je vois 5 têtes d'affilée, j'en déduis qu'il s'agit d'un exemple de processus non aléatoire. En fait, et je me trompe peut-être ici, la probabilité d’un «toin coss» (en supposant que l’on soit aléatoire) est de 50% de têtes et de 50% de queues, ce qui est complètement indépendant du résultat précédent. Le fait est que si nous lançons une pièce 50000 fois et que les 25 000 premiers sont des têtes, à condition que les 25 000 restants correspondent à des queues, cela reflète tout de même un manque de partialité
utilisateur2238 du

@ user2238: Votre dernière déclaration est vraie, mais ce serait extrêmement rare. En fait, voir une série de 5 têtes sur 5 lancers ne se produirait que 3% du temps si la pièce est juste. Il est toujours possible que le zéro soit vrai et nous avons assisté à un événement rare.
Brett

6

"En gros, la valeur p donne une probabilité du résultat observé d'une expérience étant donné l'hypothèse (modèle)."

mais ce n'est pas le cas. Pas même grossièrement - cela fausse une distinction essentielle.

Le modèle n'est pas spécifié, comme le souligne Raskolnikov, mais supposons que vous parliez d'un modèle binomial (lancers de pièces indépendants, biais de pièces inconnu). L'hypothèse est l'affirmation selon laquelle le paramètre pertinent dans ce modèle, le biais ou la probabilité des têtes, est 0,5.

"Avec cette probabilité (valeur p), nous voulons juger notre hypothèse (quelle est sa probabilité)"

Nous pouvons en effet vouloir porter ce jugement, mais une valeur-p ne nous aidera pas (et n’a pas été conçue pour).

"Mais ne serait-il pas plus naturel de calculer la probabilité de l'hypothèse en fonction du résultat observé?"

Peut-être que ce serait. Voir toute la discussion de Bayes ci-dessus.

"[...] Maintenant, nous calculons la valeur p, qui est égale à la probabilité d'obtenir 14 têtes ou plus sur 20 lancers de pièces. OK, maintenant nous avons cette probabilité (0,058) et nous voulons utiliser cette probabilité pour: juger notre modèle (comment est-il probable que nous ayons une pièce équitable) ".

'de notre hypothèse, en supposant que notre modèle soit vrai', mais essentiellement: oui. Des valeurs p élevées indiquent que le comportement de la pièce correspond à l'hypothèse selon laquelle elle est juste. (Ils concordent généralement avec l'hypothèse fausse, mais ils sont si proches de la réalité que nous n'avons pas assez de données pour le savoir; voir «pouvoir statistique».)

"Mais si nous voulons estimer la probabilité du modèle, pourquoi ne calculons-nous pas la probabilité du modèle à partir de l'expérience? Pourquoi calculons-nous la probabilité de l'expérience à l'aide du modèle (valeur p)?"

En réalité, nous ne calculons pas la probabilité des résultats expérimentaux étant donné l'hypothèse de cette configuration. Après tout, la probabilité n'est que d'environ 0,176 de voir exactement 10 têtes lorsque l'hypothèse est vraie, et c'est la valeur la plus probable. Ce n'est pas une quantité d'intérêt du tout.

Il est également important de ne pas non plus estimer la probabilité du modèle. Les réponses fréquentistes et bayésiennes supposent généralement que le modèle est vrai et font leurs déductions sur ses paramètres. En fait, tous les Bayésiens ne seraient même pas en principe intéressés par la probabilité du modèle, à savoir: la probabilité que toute la situation soit bien modélisée par une distribution binomiale. Ils peuvent faire beaucoup de vérification de modèle, mais ne demandent jamais réellement quelle est la probabilité que le binôme soit dans l'espace d'autres modèles possibles. Les Bayésiens qui se soucient de Bayes Factors sont intéressés, les autres moins.


2
Hmm, deux votes négatifs. Si la réponse est si mauvaise, il serait bon d'avoir des commentaires.
conjugateprior

J'ai aimé cette réponse. Parfois, les gens refusent de répondre parce qu'ils ne ressemblent pas à un manuel et essaient de débarrasser tous les sites des discussions contenant des traces de bon sens ou de profanes.
Vass

Je n'ai pas voté vers le bas mais je pense qu'un problème est que votre argument n'est pas clair.
Elvis



2

Définir la probabilité . Je suis sérieux. Avant de continuer, nous devons nous mettre d’accord.

DM

P(M|D)P(M,D)

106/28109

Dans le monde pratique, par exemple avec des problèmes de santé et leur fonctionnement, vous ne pourrez peut-être pas inventer aucun de ces composants de la distribution articulaire et vous ne pourrez pas conditionner.

P(M,)p=0.5P(p=0.5)=0B(0.5,0.5)B(1000,1000)0.528dix9/(28dix9+dix6)

Outre les difficultés à définir exactement quels sont les bons modèles, les méthodes bayésiennes disposent de moyens limités pour traiter les erreurs de spécification des modèles. Si vous n'aimez pas les erreurs gaussiennes, ou si vous ne croyez pas en l'indépendance des lancers de pièces (votre main se fatigue après les 10 000 premiers lancers environ, vous ne devez donc pas le lancer aussi haut que les 1 000 premiers fois, ce qui peut influer sur les probabilités), tout ce que vous pouvez faire dans le monde bayésien est de construire un modèle plus compliqué - prior cassant le bâton pour les mélanges normaux, splines dans les probabilités dans le temps, peu importe. Mais il n’existe pas d’erreurs standard analogues au sandwich de Huber analogues qui reconnaissent explicitement que le modèle peut être mal spécifié, et sont prêtes à en tenir compte.

<Ω,F,P>ΩFσPUNEΩUNEFXt,t[0,1]{Xt>0,t[0,0.5]}{Xt>0,t{t1,t2,,tk}}kσ


1

Mais si nous voulons estimer la probabilité du modèle, pourquoi ne calculons-nous pas la probabilité du modèle compte tenu de l'expérience?

Parce qu'on ne sait pas comment. Il existe un nombre infini de modèles possibles et leur espace de probabilité n'est pas défini.

Voici un exemple pratique. Disons que je veux prévoir le PIB américain. Je reçois la série chronologique, et correspond à un modèle. Quelle est la probabilité que ce modèle soit vrai?

Δdansyt=μ+et
μet

entrez la description de l'image ici

dansyt=ct+et
c

μ

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.