Variance élevée de la distribution des valeurs de p (un argument dans Taleb 2016)

J'essaie de comprendre la déclaration d'ensemble faite dans Taleb, 2016, La méta-distribution des valeurs P standard .

Dans ce document, Taleb avance l'argument suivant pour le manque de fiabilité de la valeur de p (si je comprends bien):

Une procédure d'estimation opérant sur points de données provenant d'une distribution valeur ap. Si nous tirons n points de plus de cette distribution et produisons une autre valeur p, nous pouvons faire la moyenne de ces valeurs p en obtenant dans la limite la soi-disant "vraie valeur p". $n$ $X$

Il est démontré que cette "vraie valeur de p" présente une variance inquiétante, de sorte qu'une distribution + procédure avec une "vraie valeur de p" indiquera 60% du temps une valeur de p <0,05. $.12$

Question : comment concilier cela avec l'argument traditionnel en faveur de la valeur . Si je comprends bien, la valeur p est censée vous dire quel pourcentage du temps votre procédure vous donnera l'intervalle correct (ou autre). Cependant, cet article semble faire valoir que cette interprétation est trompeuse car la valeur p ne sera pas la même si vous exécutez à nouveau la procédure. $p$

Suis-je en train de manquer le point?

hypothesis-testing statistical-significance p-value

— Lépidoptériste
source

Pouvez-vous expliquer ce qu'est cet "argument traditionnel"? Je ne suis pas sûr de savoir clairement quel argument vous envisagez.

— Glen_b -Reinstate Monica

La question est intéressante et se rapporte à une littérature pour laquelle CV a même une étiquette, combinant des valeurs de p que vous aimeriez ajouter si vous le jugez approprié.

— mdewey

Je pense que la question de la reproductibilité des valeurs de p peut être très étroitement liée à celle-ci. Peut-être que l'analyse y est similaire (ou même la même) à celle mentionnée ici.

— whuber

Réponses:

Une valeur de p est une variable aléatoire.

Sous (au moins pour une statistique à distribution continue), la valeur de p devrait avoir une distribution uniforme $H_0$

Pour un test cohérent, sous la valeur de p devrait aller à 0 dans la limite lorsque la taille des échantillons augmente vers l'infini. De même, à mesure que la taille des effets augmente, les distributions des valeurs de p devraient également tendre vers 0, mais elles seront toujours "étalées". $H_1$

La notion d'une «vraie» valeur de p me semble absurde. Qu'est-ce que cela signifierait, sous ou ? Vous pourriez par exemple dire que vous voulez dire " la moyenne de la distribution des valeurs de p à une taille d'effet et une taille d'échantillon données ", mais dans quel sens avez-vous une convergence où l'écart devrait se réduire? Ce n'est pas comme si vous pouviez augmenter la taille de l'échantillon tout en le maintenant constant. $H_0$ $H_1$

$H_1$

C'est exactement la façon dont les valeurs p sont censées se comporter - pour un faux nul, à mesure que la taille de l'échantillon augmente, les valeurs p devraient devenir plus concentrées à des valeurs faibles, mais rien ne suggère que la distribution des valeurs qu'il prend lorsque vous faire une erreur de type II - lorsque la valeur de p est supérieure à votre niveau de signification - devrait en quelque sorte se «rapprocher» de ce niveau de signification.

Que serait alors une valeur de p une estimation $\alpha=0.05$

Il est souvent utile de considérer ce qui se passe à la fois avec la distribution de la statistique de test que vous utilisez sous l'alternative et ce que l'application du cdf sous null comme une transformation à cela fera à la distribution (qui donnera la distribution de la valeur de p sous l'alternative spécifique). Quand vous pensez en ces termes, il n'est souvent pas difficile de voir pourquoi le comportement est tel qu'il est.

Le problème tel que je le vois n'est pas tant qu'il y ait un problème inhérent avec les valeurs de p ou les tests d'hypothèse, c'est plus une question de savoir si le test d'hypothèse est un bon outil pour votre problème particulier ou si quelque chose d'autre serait plus approprié. dans tous les cas particuliers - ce n'est pas une situation pour les polémiques à grande échelle, mais une considération attentive du type de questions auxquelles les tests d'hypothèse répondent et des besoins particuliers de votre situation. Malheureusement, un examen attentif de ces questions est rarement fait - trop souvent, on voit une question de la forme "quel test dois-je utiliser pour ces données?" sans aucune considération de ce que pourrait être la question d'intérêt, et encore moins si un test d'hypothèse est un bon moyen d'y répondre.

L'une des difficultés est que les tests d'hypothèse sont à la fois largement mal compris et largement mal utilisés; les gens pensent très souvent qu'ils nous disent des choses qu'ils ne disent pas. La valeur de p est probablement l'élément le plus mal compris des tests d'hypothèse.

— Glen_b -Reinstate Monica
source

p

$p$

n

$n$

m

$m$

n

$n$

n

$n$

n

$n$

H_{1}

$H_1$

H_{1}

$H_1$

n

$n$

+1. Une analyse connexe - et amusante - qui me vient à l'esprit est ce que Geoff Cumming appelle "Une danse de valeurs p": voir youtube.com/watch?v=5OL1RqHrZQ8 (la "danse" se produit à environ 9 minutes) . Cette toute petite présentation met essentiellement l'accent sur la variation des valeurs de p même pour une puissance relativement élevée. Je ne suis pas tout à fait d'accord avec le point principal de Cumming selon lequel les intervalles de confiance sont tellement meilleurs que les valeurs de p (et je déteste qu'il l'appelle "de nouvelles statistiques"), mais je pense que cette variabilité du montant est surprenante pour beaucoup de gens et le "danse" est une jolie façon de le démontrer.

— amibe dit Réintégrer Monica

La réponse de Glen_b est parfaite (+1; considérez la mienne comme supplémentaire). L'article que vous référencez par Taleb est très similaire à une série d'articles dans la littérature de psychologie et de statistiques sur le type d'informations que vous pouvez glaner en analysant les distributions des valeurs de p (ce que les auteurs appellent la courbe de p ; voir leur site avec un tas de ressources, y compris une application d'analyse de courbe p ici ).

Les auteurs proposent deux utilisations principales de la courbe p:

Vous pouvez évaluer la valeur probante d'une littérature en analysant la courbe p de la littérature . C'était leur première utilisation annoncée de la courbe en p. Essentiellement, comme Glen_b le décrit, lorsque vous traitez avec des tailles d'effet non nulles, vous devriez voir des courbes p qui sont biaisées positivement en dessous du seuil conventionnel de = 0,05 lorsqu'un effet (ou groupe d'effets) est "réel". Vous pouvez donc tester une courbe p pour un biais positif significatif comme test de valeur probante. À l'inverse, les développeurs proposent que vous puissiez effectuer un test d'asymétrie négative (c'est-à-dire des valeurs p plus importantes que les plus petites) comme moyen de tester si un ensemble donné d'effets a été soumis à diverses pratiques analytiques douteuses. p <0,05, car des valeurs p plus petites devraient être plus probables que p- valeurs plus proches de p
Vous pouvez calculer une estimation méta-analytique sans biais de publication de la taille de l'effet en utilisant la courbe p avec les valeurs p publiées . Celui-ci est un peu plus difficile à expliquer succinctement, et je vous recommande plutôt de consulter leurs articles axés sur l'estimation de la taille des effets (Simonsohn, Nelson et Simmons, 2014a, 2014b) et de lire vous-même les méthodes. Mais essentiellement, les auteurs suggèrent que la courbe p peut être utilisée pour contourner la question de l'effet de tiroir de fichiers, lors d'une méta-analyse.

Donc, en ce qui concerne votre question plus large de:

comment concilier cela avec l'argument traditionnel en faveur de la p-value?

Je dirais que des méthodes comme Taleb (et d'autres) ont trouvé un moyen de réutiliser les valeurs p, afin que nous puissions obtenir des informations utiles sur des littératures entières en analysant des groupes de valeurs p, alors qu'une seule valeur p seule pourrait être beaucoup plus limitée dans son utilité.

Les références

Simonsohn, U., Nelson, LD et Simmons, JP (2014a). Courbe en P: une clé pour le tiroir de fichiers. Journal of Experimental Psychology: General , 143 , 534–547.

Simonsohn, U., Nelson, LD et Simmons, JP (2014b). Courbe P et taille d'effet: correction du biais de publication en utilisant uniquement des résultats significatifs. Perspectives on Psychological Science , 9 , 666-681.

Simonsohn, U., Simmons, JP et Nelson, LD (2015). Meilleures courbes P: rendre l'analyse des courbes P plus robuste aux erreurs, à la fraude et au piratage P ambitieux, une réponse à Ulrich et Miller (2015). Journal of Experimental Psychology: General , 144 , 1146-1152.

— jsakaluk
source