Pourquoi les valeurs de p inférieures ne sont-elles pas plus de preuves contre le nul? Arguments de Johansson 2011


31

Johansson (2011) dans « Hail the impossible: p-values, evidence, and vraisemblability » (voici également un lien vers le journal ) déclare que des valeurs de plus faibles sont souvent considérées comme des preuves plus solides contre le nul. Johansson implique que les gens considéreraient les preuves contre le zéro comme plus fortes si leur test statistique produisait une valeur de p de 0,01 , que si leur test statistique produisait une valeur de p de 0,45 . Johansson énumère quatre raisons pour lesquelles la valeur p ne peut pas être utilisée comme preuve contre le null:pp0.01p0.45p

  1. est uniformément distribué sous l'hypothèse nulle et ne peut donc jamais indiquer la preuve de la nullité.p
  2. est conditionné uniquement à l'hypothèse nulle et n'est donc pas adapté pour quantifier les preuves, car les preuves sont toujours relatives dans le sens d'être des preuves pour ou contre une hypothèse par rapport à une autre hypothèse.p
  3. p désigne la probabilité d'obtenir des preuves (étant donné la valeur nulle), plutôt que la force des preuves.
  4. p dépend de données non observées et d'intentions subjectives et implique donc, étant donné l'interprétation probante, que la force probante des données observées dépend de choses qui ne se sont pas produites et d'intentions subjectives.

Malheureusement, je ne peux pas obtenir une compréhension intuitive de l'article de Johansson. Pour moi, une valeur de de 0,01 indique qu'il y a moins de chance que la valeur nulle soit vraie, qu'une valeur de p de 0,45 . Pourquoi les valeurs p inférieures ne sont-elles pas des preuves plus solides contre null? p0.01p0.45p


Bonjour @luciano! Je vois que vous n'avez accepté aucune réponse dans ce fil. Quel genre de réponse recherchez-vous? Votre question concerne-t-elle principalement les arguments de Johannson en particulier, ou les valeurs de p inférieures en général?
amibe dit Réintégrer Monica

Tout cela concerne les cadres fréquentistes Fisher vs Neyman-Pearson. Voir plus dans cette réponse par @gung .
Firebug

Réponses:


21

Mon appréciation personnelle de ses arguments:

  1. Ici, il parle d'utiliser comme preuve pour le Null, alors que sa thèse est que p ne peut pas être utilisé comme preuve contre le Null. Donc, je pense que cet argument est largement hors de propos.pp
  2. Je pense que c'est un malentendu. Le test pêcheur suit fortement l'idée du rationalisme critique de Popperp qui stipule que vous ne pouvez pas soutenir une théorie mais seulement la critiquer. Donc, dans ce sens, il n'y a qu'une seule hypothèse (la Null) et vous vérifiez simplement si vos données y sont conformes.
  3. Je suis en désaccord ici. Cela dépend de la statistique de test mais p est généralement une transformation d'une taille d'effet qui parle contre le Null. Donc, plus l'effet est élevé, plus la valeur de p est faible --- toutes choses égales par ailleurs. Bien sûr, pour différents ensembles de données ou hypothèses, cela n'est plus valable.
  4. Je ne suis pas sûr de bien comprendre cette affirmation, mais d'après ce que je peux en déduire, c'est moins un problème de que de personnes qui l'utilisent à tort. p était censé avoir l'interprétation de fréquence à long terme et c'est une fonctionnalité et non un bogue. Mais vous ne pouvez pas blâmer p pour les personnes prenant une seule valeur p comme preuve de leur hypothèse ou pour les personnes ne publiant que p < 0,05 . ppppp<.05

Sa suggestion d'utiliser le rapport de vraisemblance comme mesure de la preuve est à mon avis une bonne idée (mais ici l'idée d'un facteur Bayes est plus générale), mais dans le contexte dans lequel il l'apporte est un peu particulier: il part d'abord les motifs des tests de Fisherian où il n'y a pas d'hypothèse alternative pour calculer le rapport de vraisemblance. Mais comme preuve contre le Null est Fisherian. Il confond donc Fisher et Neyman-Pearson. Deuxièmement, la plupart des statistiques de test que nous utilisons sont (fonctions de) le rapport de vraisemblance et dans ce cas p est une transformation du rapport de vraisemblance. Comme le dit Cosma Shalizi :pp

parmi tous les tests d'une taille donnée , celui qui a la plus faible probabilité de manquer, ou la puissance la plus élevée, a la forme «dire« signal »si q ( x ) / p ( x ) > t ( s ) , sinon dire« bruit » , "et que le seuil t varie inversement avec s . La quantité q ( x ) / p ( x ) est le rapport de vraisemblance; le lemme de Neyman-Pearson dit que pour maximiser la puissance, nous devrions dire «signal» s'il est suffisamment plus probable que le bruit.sq(x)/p(x)>t(s)tsq(x)/p(x)

Ici est la densité sous l'état "signal" et p ( x ) la densité sous l'état "bruit". La mesure de "suffisamment probable" serait ici P ( q ( X ) / p ( x ) > t o b sH 0 ) qui est p . Notez que dans les tests Neyman-Pearson corrects, t o b s est remplacé par un t fixe ( s ) tel que Pq(x)p(x)P(q(X)/p(x)>tobsH0)ptobst(s) . P(q(X)/p(x)>t(s)H0)=α


6
+1 pour le point 3 seul. Cox décrit la valeur de p comme un étalonnage du rapport de vraisemblance (ou d'une autre statistique de test) et c'est un point de vue qui est souvent oublié.
Scortchi - Réintégrer Monica

(+1) Belle réponse, @Momo. Je me demande si cela pourrait être amélioré en ajoutant quelque chose comme "Mais ils le sont!" en gros caractères comme en-tête de votre réponse, car cela semble être votre réponse à la question du titre de l'OP "Pourquoi les valeurs de p inférieures ne sont-elles pas plus de preuves contre le nul?". Vous démystifiez tous les arguments donnés, mais ne fournissez pas explicitement de réponse à la question du titre.
amibe dit Reinstate Monica

1
Je serais un peu hésitant à le faire, tout cela est très subtil et très dépendant d'hypothèses, de contextes, etc. Par exemple, vous pouvez carrément nier que les énoncés probabilistes peuvent être utilisés comme "preuves" et donc l'énoncé est correct. Du point de vue des pêcheurs, ce n'est pas le cas. De plus, je ne dirais pas que je démystifie (tous) les arguments, je pense que je ne fais que fournir une perspective différente et souligner quelques défauts logiques dans l'argument. L'auteur fait valoir son point de vue et essaie de fournir une solution à une approche pertinente qui, en soi, peut être considérée comme tout aussi problématique.
Momo

9

La raison pour laquelle des arguments comme celui de Johansson sont si souvent recyclés semble être liée au fait que les valeurs P sont des indices de la preuve par rapport au nul mais ne sont pas des mesures de la preuve. Les preuves ont plus de dimensions qu'aucun nombre unique ne peut mesurer, et il y a donc toujours des aspects de la relation entre les valeurs P et les preuves que les gens peuvent trouver difficiles.

J'ai passé en revue de nombreux arguments utilisés par Johansson dans un article qui montre la relation entre les valeurs de P et les fonctions de vraisemblance, et donc des preuves: http://arxiv.org/abs/1311.0081 Malheureusement, cet article a maintenant été rejeté trois fois, bien que ses arguments et leurs preuves n'aient pas été réfutés. (Il semble que ce soit désagréable pour les arbitres qui ont des opinions comme Johansson plutôt que fausses.)


+1 @Michael Lew, qu'en est-il du changement de titre? P (ee) ou pas P (ee) ... ne ressemble pas à un dilemme. Nous savons tous quoi faire dans cette situation. = D Blague à part, quelles ont été les raisons du rejet de votre communication?
Un vieil homme dans la mer.

4

Ajout à la belle réponse de @ Momo:

1


2
Il convient de noter que les preuves elles-mêmes ne sont pas affectées par la multiplicité des tests, même si votre réponse aux preuves peut être modifiée. La preuve contenue dans les données est la preuve contenue dans les données et elle n'est affectée par aucun calcul que vous pouvez effectuer sur votre ordinateur. La «correction» typique des valeurs de p pour la multiplicité des tests a trait à la préservation des taux d'erreur faux positifs, et non à la correction de la relation entre la valeur de p et les preuves expérimentales.
Michael Lew

1

Johansson parle-t-il des valeurs de p de deux expériences différentes? Si c'est le cas, la comparaison des valeurs p peut être comme comparer des pommes à des côtelettes d'agneau. Si l'expérience "A" implique un grand nombre d'échantillons, même une petite différence sans conséquence peut être statistiquement significative. Si l'expérience "B" ne concerne que quelques échantillons, une différence importante peut être statistiquement non significative. Pire encore (c'est pourquoi j'ai dit des côtelettes d'agneau et non des oranges), les écailles peuvent être totalement incomparables (psi dans l'un et kwh dans l'autre).


3
Mon impression est que Johansson ne parle pas de comparer les valeurs de p de différentes expériences. À la lumière de ce commentaire de @ Glen_b, cela vous dérangerait-il de clarifier votre message, Emil? C'est bien de soulever un point connexe ('Je pense que J a tort dans le contexte A, mais cela aurait un certain mérite dans le contexte B'), mais il doit être clair que c'est ce que vous faites. Si vous êtes posez une question ou des commentaires, s'il vous plaît supprimer ce message et faire un commentaire.
gung - Rétablir Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.