Les valeurs de p plus petites sont-elles plus convaincantes?

31

J'ai lu des informations sur les valeurs de , les taux d'erreur de type 1, les niveaux de signification, les calculs de puissance, la taille des effets et le débat Fisher vs Neyman-Pearson. Cela m'a laissé un peu dépassé. Je m'excuse pour le mur de texte, mais j'ai estimé qu'il était nécessaire de donner un aperçu de ma compréhension actuelle de ces concepts, avant de passer à mes vraies questions. $p$

D'après ce que j'ai rassemblé, une valeur est simplement une mesure de surprise, la probabilité d'obtenir un résultat au moins aussi extrême, étant donné que l'hypothèse nulle est vraie. À l'origine, Fisher voulait que ce soit une mesure continue. $p$

Dans le cadre Neyman-Pearson, vous sélectionnez un niveau de signification à l'avance et l'utilisez comme point de coupure (arbitraire). Le niveau de signification est égal au taux d'erreur de type 1. Elle est définie par la fréquence à long terme, c'est-à-dire que si vous répétiez une expérience 1000 fois et que l'hypothèse nulle est vraie, environ 50 de ces expériences entraîneraient un effet significatif , en raison de la variabilité d'échantillonnage. En choisissant un niveau de signification, nous nous prémunissons contre ces faux positifs avec une certaine probabilité. valeurs n'apparaissent traditionnellement pas dans ce cadre. $P$

Si nous trouvons une valeur de 0,01, cela ne signifie pas que le taux d'erreur de type 1 est de 0,01, l'erreur de type 1 est indiquée a priori. Je pense que c'est l'un des principaux arguments du débat Fisher vs NP, car les valeurs de sont souvent rapportées à 0,05 *, 0,01 **, 0,001 ***. Cela pourrait induire les gens en erreur en leur disant que l'effet est significatif à une certaine valeur , au lieu d'une certaine valeur de signification. $p$ $p$ $p$

Je me rends également compte que la valeur est fonction de la taille de l'échantillon. Par conséquent, il ne peut pas être utilisé comme mesure absolue. Une petite valeur pourrait indiquer un petit effet non pertinent dans une expérience sur un grand échantillon. Pour contrer cela, il est important d'effectuer un calcul de la puissance / effet lors de la détermination de la taille de l'échantillon pour votre expérience. valeurs nous indiquent s'il y a un effet, et non sa taille. Voir Sullivan 2012 . $p$ $p$ $P$

Ma question: comment puis-je concilier le fait que la valeur est une mesure de surprise (plus petite = plus convaincante) alors qu'en même temps, elle ne peut pas être considérée comme une mesure absolue? $p$

Ce qui me déroute, c'est la suivante: peut-on être plus confiant dans une petite valeur que dans une grande? Dans le sens pêcheur, je dirais que oui, nous sommes plus surpris. Dans le cadre NP, le choix d'un niveau de signification plus petit impliquerait que nous nous protégeons plus fortement contre les faux positifs. $p$

Mais d'un autre côté, les valeurs dépendent de la taille de l'échantillon. Ce n'est pas une mesure absolue. Ainsi, nous ne pouvons pas simplement dire que 0,001593 est plus significatif que 0,0439. C'est pourtant ce qu'impliquerait le cadre de Fisher: nous serions plus surpris d'une telle valeur extrême. Il y a même une discussion au sujet du terme hautement significatif étant un terme impropre: est-ce mal de se référer aux résultats comme étant "très importants"? $p$

J'ai entendu dire que les valeurs de dans certains domaines de la science ne sont considérées comme importantes que lorsqu'elles sont inférieures à 0,0001, tandis que dans d'autres domaines, les valeurs autour de 0,01 sont déjà considérées comme hautement significatives. $p$

Questions connexes:

— Zenit
source

N'oubliez pas non plus qu'une valeur p "significative" ne vous dit rien sur votre théorie. Cela est même admis par les défenseurs les plus ardents: Précis d'importance statistique: justification, validité et utilité. Siu L. Chow. SCIENCES DU COMPORTEMENT ET DU CERVEAU (1998) 21, 169-239 Les données sont interprétées lorsqu'elles sont transformées en preuves. Les hypothèses sur lesquelles repose une interprétation doivent être énumérées puis, si possible, vérifiées. Que mesure-t-on?

— Livid

2

+1, mais je vous encourage à concentrer la question et à supprimer les questions secondaires. Si vous voulez savoir pourquoi certaines personnes soutiennent que les intervalles de confiance sont meilleurs que les valeurs de p, posez une question distincte (mais assurez-vous qu'elle n'a pas été posée auparavant).

— Amoeba dit Reinstate Monica

3

En dehors de cela, comment votre question n'est-elle pas un double de Pourquoi les valeurs p inférieures ne sont-elles pas davantage des preuves contre le null? Avez-vous vu ce fil? Vous pouvez peut-être l'ajouter à la liste à la fin de votre message. Voir aussi une question similaire. Quel sens cela fait-il de comparer des valeurs de p entre elles? , mais je suis réticent à recommander ce fil, car la réponse acceptée est IMHO incorrecte / trompeuse (voir la discussion dans les commentaires).

— amoeba dit Reinstate Monica

2

Gelman a beaucoup de pertinence à dire sur les valeurs de p. par exemple 1. ici (Gelman et Stern, Am.Stat. 2006 pdf) , 2. ici sur son blog , 3. encore son blog et peut-être aussi 4. ici (Gelman, 2013 a publié un commentaire sur un autre article, pdf)

— Glen_b - Rétablir Monica

2

Merci pour les liens, @Glen_b; Je connais bien le document Gelman & Stern et je m'en réfère souvent moi-même, mais je n'ai jamais vu ce document de 2013 ni sa discussion auparavant. Cependant, je voudrais mettre en garde OP sur l'interprétation de Gelman & Stern dans le contexte de sa question. G&S offre un bel exemple avec deux études estimant un effet à et ; dans un cas , dans un autre , mais la différence entre les estimations n'est pas significative. Il est important de garder cela à l'esprit, mais si maintenant, après OP, nous demandons si la première étude est plus convaincante, je dirais certainement oui.

25 \pm 10

$25\pm 10$

10 \pm 10

$10\pm 10$

p < 0.01

$p<0.01$

p > 0.05

$p>0.05$

— Amoeba dit Reinstate Monica

18

Les valeurs plus petites sont-elles "plus convaincantes"? Oui, bien sûr. $p$

Dans le cadre de Fisher, la valeur est une quantification de la quantité de preuves par rapport à l'hypothèse nulle. Les preuves peuvent être plus ou moins convaincantes; plus la valeur petite , plus elle est convaincante. Notez que dans toute expérience donnée avec une taille d'échantillon fixe , la valeur est monotone liée à la taille de l'effet, comme @Scortchi le souligne bien dans sa réponse (+1). Des valeurs de plus petites correspondent donc à des tailles d'effet plus importantes; bien sûr, ils sont plus convaincants! $p$ $p$ $n$ $p$ $p$

Dans le cadre Neyman-Pearson, l'objectif est d'obtenir une décision binaire: soit les preuves sont "significatives", soit elles ne le sont pas. En choisissant le seuil , nous garantissons que nous n'aurons pas plus de faux positifs. Notez que différentes personnes peuvent avoir un différent à l'esprit en regardant les mêmes données; peut-être que lorsque je lis un article dans un domaine qui me laisse sceptique, je ne considérerais pas personnellement comme des résultats "significatifs" avec par exemple même si les auteurs les qualifient de significatifs. Mon peut être défini sur ou quelque chose. De toute évidence, plus le rapporté $\alpha$ $\alpha$ $\alpha$ $p=0.03$ $\alpha$ $0.001$ $p$ -valeur, les lecteurs les plus sceptiques pourront convaincre! Par conséquent, là encore, des valeurs de inférieures sont plus convaincantes. $p$

La pratique actuellement standard consiste à combiner les approches de Fisher et de Neyman-Pearson: si , alors les résultats sont appelés "significatifs" et la valeur de est [exactement ou approximativement] rapportée et utilisée comme mesure de convaincance (en marquant avec des étoiles, en utilisant des expressions comme "hautement significatives", etc.); si , alors les résultats sont appelés "non significatifs" et c'est tout. $p<\alpha$ $p$ $p>\alpha$

C'est ce qu'on appelle généralement une "approche hybride", et en fait, elle est hybride. Certaines personnes soutiennent que cet hybride est incohérent; J'ai tendance à être en désaccord. Pourquoi serait-il invalide de faire deux choses valides en même temps?

Lectures complémentaires:

L '«hybride» entre les approches de Fisher et de Neyman-Pearson pour les tests statistiques est-il vraiment un «méli-mélo incohérent»? - ma question sur "l'hybride". Cela a généré des discussions, mais je ne suis toujours pas satisfait de l'une des réponses et je prévois de revenir sur ce sujet à un moment donné.
Est-il erroné de qualifier les résultats de "hautement significatifs"? - voir ma réponse d'hier, qui dit essentiellement: ce n'est pas faux (mais peut-être un peu bâclé).
Pourquoi les valeurs de p inférieures ne sont-elles pas davantage des preuves contre le zéro? Arguments de Johansson 2011 - un exemple d'un article anti-Fisher soutenant que les valeurs ne fournissent pas de preuves contre le nul; la meilleure réponse de @Momo fait un bon travail en démystifiant les arguments. Ma réponse à la question du titre est: Mais bien sûr qu'ils le sont. $p$

— l'amibe dit de réintégrer Monica
source

1

(+1) Mais voir la section 4.4 de l'article de Michael Lew: certains préfèrent assimiler la quantité de preuves à la vraisemblance qu'à la valeur de p, ce qui fait une différence lorsque les valeurs de p provenant d'expériences avec différents espaces d'échantillonnage sont comparées. Ils parlent donc d '«indexation» ou de «calibrage» des preuves / probabilités.

— Scortchi - Réintégrer Monica

Désolé, je voulais dire, plus précisément, que, de ce point de vue, la "preuve" (ou le "support") relative pour différentes valeurs qu'un paramètre peut prendre est le rapport de leurs fonctions de vraisemblance évaluées pour les données observées. Ainsi, dans l'exemple de Lew, une tête sur six lancers est la même preuve contre l'hypothèse nulle, que le schéma d'échantillonnage soit binomial ou binomial négatif; Pourtant, les valeurs de p diffèrent - vous pourriez dire que dans un schéma d'échantillonnage, vous étiez moins susceptible d'amasser autant de preuves contre le nul. (Bien sûr, les droits sur le mot "preuve", comme avec "significatif", ...

— Scortchi - Reinstate Monica

... n'a pas encore été fermement établi.)

— Scortchi - Réintégrer Monica

Hmmm, merci beaucoup d'avoir attiré mon attention sur cette section; Je l'ai lu auparavant mais j'ai apparemment raté son importance. Je dois dire qu'en ce moment je suis confus. Lew écrit que les valeurs de p ne devraient pas être "ajustées" en tenant compte des règles d'arrêt; mais je ne vois aucun ajustement dans ses formules 5-6. Quelles seraient les valeurs de p "non ajustées"?

— Amoeba dit Reinstate Monica

1

@Scortchi: Hmmm. Je ne comprends vraiment pas pourquoi une de ces valeurs de p est "ajustée" et une autre non; pourquoi pas l'inverse? Je ne suis pas du tout convaincu par l'argument de Lew ici, et je ne le comprends même pas complètement. En y réfléchissant, j'ai trouvé la question de Lew de 2012 sur le principe de vraisemblance et les valeurs de p, et y ai posté une réponse. Le fait est que l'on n'a pas besoin de règles d'arrêt différentes pour obtenir des valeurs p différentes; on peut simplement considérer différentes statistiques de test. Nous pourrions peut-être continuer à en discuter, j'apprécierais votre contribution.

— amoeba dit Reinstate Monica

9

Je ne sais pas ce que l'on entend par de plus petites valeurs de p étant "meilleures", ou par nous étant "plus confiants" en elles. Mais considérer les valeurs de p comme une mesure de la surprise que nous devrions être par les données, si nous croyions l'hypothèse nulle, semble assez raisonnable; la valeur de p est une fonction monotone de la statistique de test que vous avez choisiepour mesurer la divergence avec l'hypothèse nulle dans une direction qui vous intéresse, en l'étalonnant par rapport à ses propriétés dans le cadre d'une procédure d'échantillonnage pertinente à partir d'une population ou d'une attribution aléatoire de traitements expérimentaux. La «signification» est devenue un terme technique pour désigner les valeurs de p «supérieures ou inférieures à une valeur spécifiée; ainsi, même ceux qui ne sont pas intéressés à spécifier des niveaux de signification et à accepter ou rejeter des hypothèses ont tendance à éviter les expressions telles que «hautement significatif» - le simple respect de la convention.

En ce qui concerne la dépendance des valeurs de p à la taille de l'échantillon et à la taille de l'effet, une certaine confusion peut survenir car, par exemple, il peut sembler que 474 têtes sur 1000 lancers devraient être moins surprenantes que 2 sur 10 pour quelqu'un qui pense que la pièce est juste - après tout la proportion d'échantillon ne s'écarte que légèrement de 50% dans le premier cas, mais les valeurs de p sont à peu près les mêmes. Mais vrai ou faux n'admettent pas de degrés; la valeur de p fait ce qu'on lui demande: souvent, les intervalles de confiance pour un paramètre sont vraiment ce qui est nécessaire pour évaluer la précision avec laquelle un effet a été mesuré, et l'importance pratique ou théorique de sa magnitude estimée.

— Scortchi - Rétablir Monica
source

1

+1. Je pense que la question était de savoir: les valeurs de p plus petites sont-elles plus convaincantes - c'est ainsi que je comprends "mieux" dans le titre (en général, la question bénéficierait grandement si le PO tentait de le concentrer)? Si l'on obtient ou , on pourrait peut-être appeler les résultats "significatifs" dans les deux cas, mais sont-ils plus convaincants dans ce dernier cas? La pratique consistant à placer des «étoiles» près des valeurs p suppose qu'elles le sont; sont-ils? (Il s'agit essentiellement de poser des questions sur «l'hybride» souvent critiqué entre Fisher et Neyman-Pearson; personnellement, je n'ai aucun problème avec cela.)

p = 0.04

$p=0.04$

p = 0.000004

$p=0.000004$

— amibe dit Reinstate Monica

1

Merci pour les commentaires et suggestions de lectures. J'ai eu un peu plus de temps pour réfléchir à ce problème et je pense avoir réussi à isoler mes principales sources de confusion.

Au départ, je pensais qu'il y avait une dichotomie entre le fait de considérer la valeur p comme une mesure de surprise et le fait de déclarer que ce n'était pas une mesure absolue. Maintenant, je me rends compte que ces déclarations ne se contredisent pas nécessairement. La première nous permet d'être plus ou moins confiant dans l'extrême (voire la similitude?) D'un effet observé, par rapport à d'autres résultats hypothétiques de la même expérience. Alors que ce dernier nous dit seulement que ce qui pourrait être considéré comme une valeur p convaincante dans une expérience, pourrait ne pas être impressionnant du tout dans une autre, par exemple si les tailles d'échantillon diffèrent.
Le fait que certains domaines de la science utilisent une base de référence différente de fortes valeurs de p pourrait être soit le reflet de la différence de tailles d'échantillon courantes (astronomie, expériences cliniques, psychologiques) et / ou une tentative de transmettre la taille de l'effet dans un p- valeur. Mais ce dernier est une confusion incorrecte des deux.
La signification est une question oui / non basée sur l'alpha qui a été choisi avant l'expérience. Une valeur de p ne peut donc pas être plus significative qu'une autre, car elle est plus petite ou plus grande que le niveau de signification choisi. D'un autre côté, une valeur de p plus petite sera plus convaincante qu'une plus grande (pour une taille d'échantillon similaire / expérience identique, comme mentionné dans mon premier point).
Les intervalles de confiance transmettent intrinsèquement la taille de l'effet, ce qui en fait un bon choix pour se prémunir contre les problèmes mentionnés ci-dessus.

— Zenit
source

0

La valeur de p ne peut pas être une mesure de surprise car ce n'est qu'une mesure de probabilité lorsque le zéro est vrai. Si la valeur nulle est vraie, alors chaque valeur possible de p est également probable. On ne peut être surpris d'une quelconque valeur de p avant de décider de rejeter la valeur nulle. Une fois que l'on décide qu'il y a un effet, la signification de la valeur p disparaît. On le signale simplement comme un maillon d'une chaîne inductive relativement faible pour justifier ou non le rejet du nul. Mais s'il a été rejeté, il n'a en fait plus de sens.

— John
source

+1 pour le fait "lorsque la valeur nulle est vraie, alors chaque valeur de p est également probable '', cependant, je pense que cela ne s'applique qu'aux variables aléatoires continues?

Notez que je l'ai dit, chaque valeur "possible" de p est également probable. C'est donc vrai pour les variables discrètes ou continues. Avec des variables discrètes, le nombre de valeurs possibles est inférieur.

— John

êtes-vous sûr que la distribution des valeurs de p (sous ) est toujours uniforme pour les variables discrètes parce que ce lien semble indiquer quelque chose de différent: stats.stackexchange.com/questions/153249/…

H_{0}

$H_0$

Je crois que la réponse principale démontre qu'il ne s'agit pas d'un problème. La raison pour laquelle la distribution semble non uniforme est que les valeurs de p possibles sont espacées de manière inégale. Glenn l'appelle même quasi-uniforme. Je suppose qu'il est possible qu'avec certains tests très clairsemés de données binomiales avec de petits N, alors la probabilité de valeurs p spécifiques soit inégale, mais si vous considérez la probabilité de valeurs p dans une plage donnée, elle sera plus proche de l'uniformité.

— John

1

@amoeba: disons que le test t dont vous parlez teste et vous obtenez . Il se pourrait que, avec le même échantillon que vous testez et que vous obteniez , diriez-vous alors qu'il y a plus de preuves pour ?

H_{0} : μ = 0.5

$H_0: \mu=0.5$

p = 0.0000000004

$p=0.0000000004$

H_{0} : μ = 0.45

$H_0: \mu=0.45$

p = 0.0000000001

$p=0.0000000001$

μ = 0.45

$\mu=0.45$