Compréhension des vues enchâssées sur les valeurs p

Parfois, dans les rapports, j'inclus un avertissement concernant les valeurs de p et d'autres statistiques inférentielles que j'ai fournies. Je dis que puisque l'échantillon n'était pas aléatoire, de telles statistiques ne s'appliqueraient pas strictement. Ma formulation spécifique est généralement donnée dans une note de bas de page:

"Alors que, strictement parlant, les statistiques inférentielles ne sont applicables que dans le contexte de l'échantillonnage aléatoire, nous suivons la convention en rapportant les niveaux de signification et / ou les intervalles de confiance comme des repères pratiques même pour les échantillons non aléatoires. Voir l' inférence statistique de Michael Oakes : un commentaire pour les sciences du comportement (NY: Wiley, 1986).

À quelques reprises - une fois pour un article évalué par les pairs, une ou deux fois dans un cadre non universitaire - le rédacteur en chef ou le critique s'est opposé à cette clause de non-responsabilité, la qualifiant de déroutante, et a estimé que les conclusions inférentielles devraient simplement rester telles qu'elles étaient écrites (et recevoir le manteau de l'autorité). Quelqu'un d'autre a-t-il rencontré ce problème et trouvé une bonne solution? D'une part, la compréhension des gens des valeurs de p est généralement sombre, même dans le contexte de l'échantillonnage aléatoire, donc peut-être peu importe ce que nous disons. De l'autre, contribuer davantage aux malentendus semble constituer une partie du problème. Je dois ajouter que je traite fréquemment des études d'enquêtes, où l'assignation aléatoire ne s'applique pas et où les simulations Monte Carlo échouaient souvent à résoudre le problème de la représentativité.

inference p-value

— rolando2
source

le commentaire sur un examinateur est extrêmement triste, on pourrait espérer qu'une personne dans cette position ne montrerait pas au moins ouvertement son ignorance et, ce faisant, soutiendrait davantage l'interprétation erronée de la méthode statistique.

— richiemorrisroe

Corrigez-moi si je me trompe, mais le caractère aléatoire de l'échantillonnage affecte simplement le degré auquel vous pouvez généraliser les résultats. En revanche, l'assignation aléatoire est la caractéristique la plus critique pour l'inférence causale.

— Mike Lawrence

Mike, je suis d'accord avec toi. Avez-vous l'intention de prolonger la discussion ou d'indiquer un désaccord avec quelque chose que j'ai dit?

— rolando2

@richiemorrisroe: il serait insensé de s'attendre à cela de tous les critiques, mais je suppose que l'on peut espérer un avenir dans lequel nous pouvons nous attendre à cela, et nous devons certainement faire pression sur les éditeurs pour qu'ils fassent plus pour exiger et faire respecter ce qu'ils ne le font actuellement. . -Rolando, je pense que celui de Mike est simplement un point de clarification pour lever l'ambiguïté de cette discussion des questions liées à l'inférence causale. Évidemment, certaines personnes ont trouvé cela utile, même si je pensais que c'était déjà assez clair, personnellement. Si j'ai raison, cela mesure par inadvertance la confusion des autres sur les valeurs de p , ce qui motive le message original!

— Nick Stauner

Réponses:

Il y a en effet un argument à avoir pour ne pas inclure l'avertissement. Franchement, je trouverais un bref traité sur la nature des valeurs p dans un article de journal un peu rebutant, et pendant un moment, je devrais faire une pause et essayer de comprendre si vous aviez fait quelque chose de particulièrement .. .esoteric ... pour justifier de consacrer cet espace à un point de définition.

Fondamentalement, en tant que critique, je l'appellerais inutile car le lecteur devrait déjà savoir ce qu'est une valeur p et ce qu'elle fait. Je pourrais même m'y opposer parce que faire une telle note n'empêche en fait aucun des nombreux crimes d'analyse et d'interprétation qui accompagnent les valeurs p, elle met simplement une cape de "faites-moi confiance, je sais ce que je fais". C'est aussi un peu étrange - "Je vais prendre une position audacieuse contre les valeurs p, mais pas si audacieuse que je ne les rapporte pas".

Quand je considère les "points de vue bien ancrés sur les valeurs p", je suis beaucoup moins préoccupé par quelque chose comme ce que vous avez publié ci-dessus, et beaucoup plus préoccupé par l'insistance des examinateurs sur la signification statistique afin d'être publié ou sur l'objet de l'article (mettre une étoile par une découverte et tout à coup c'est une grosse affaire) ou en mélangeant la signification statistique avec la signification d'une découverte.

— Fomite
source

Je ne pense pas que cela réponde au PO. Je suppose que @ rolando2 rapporte d'autres statistiques qui sont plus centrales dans ses discussions (par exemple, les tailles d'effet), et rapporte principalement les valeurs de p comme un moyen de répondre aux attentes conventionnelles, même si elles ne s'appliquent pas strictement. En tant que tel, nous devrions être décalés dans la mesure où nous lisons trop de valeurs p ; nous devons considérer sa motivation pour la clause de non-responsabilité. Les lecteurs ne savent pas ce qu'ils doivent faire; le PO en fait mention. La clause de non-responsabilité favorise le doute, pas la confiance. Ce n'est pas si étrange de s'opposer à une norme tout en s'y conformant; ce n'est pas une position audacieuse.

— Nick Stauner

@NickStauner Je ne vois pas comment cela ne "répond" pas à l'OP. Peut-être que cela ne soutient pas ce qu'ils veulent faire, mais dans mon esprit, c'est à la fois une coupure vraiment bizarre par rapport au contenu réel du document, et aussi inutile - "C'est faux, mais je vais continuer comme si c'était bien parce que c'est ce que vous attendez tous "ne me dit pas si le mal compte .

— Fomite

La question du PO: "Quelqu'un d'autre a-t-il rencontré ce problème et trouvé une bonne solution?" Votre réponse ignore la question littérale de répondre à l'idée, et offre principalement vos opinions sur les raisons pour lesquelles l'idée devrait être rejetée. Vous commencez à faire allusion à une critique constructive de l'idée du PO: vous ne semblez pas penser que la citation d'Oakes vous dit pourquoi elle est importante. Je développerai cela un peu dans une réponse à moi.

— Nick Stauner

L'utilisation de statistiques inférentielles peut être justifiée non seulement sur la base d'un modèle de population, mais également sur la base d'un modèle de randomisation. Ce dernier ne fait aucune hypothèse sur la manière dont l'échantillon a été obtenu. En fait, c'est Fisher qui a suggéré que le modèle de randomisation devrait être la base de l'inférence statistique (par opposition à Neyman et Pearson). Voir par exemple:

Ernst, MD (2004). Méthodes de permutation: une base pour l'inférence exacte. Science statistique, 19, 676-685. [lien (accès libre)]

Ludbrook, J. et Dudley, H. (1998). Pourquoi les tests de permutation sont supérieurs aux tests t et F dans la recherche biomédicale. Statisticien américain, 52, 127-132. [lien (si vous avez accès à JSTOR)]

Je doute cependant que les éditeurs ou les examinateurs en question aient utilisé cela comme raison pour qualifier votre avis de non-responsabilité de "confus".

— Wolfgang
source

Wolfgang - points intéressants et utiles. J'aurais dû préciser, cependant, qu'une grande partie de mon travail concerne les enquêtes.

— rolando2

Si l'objectif principal est de faire une sorte d'inférence à la population et que le mécanisme d'échantillonnage est d'une nature telle que la représentativité de l'échantillon est discutable, alors en fait, toute inférence sera également assez discutable. Essentiellement, vous ne pouvez faire qu'une inférence à cette partie de la population dont le mécanisme d'échantillonnage fournit une représentation. En principe, les inférences que vous faites seront appropriées pour cette partie de la population. La question de savoir si cette partie de la population vous intéresse (ou intéresse les lecteurs) est une autre question.

— Wolfgang

$p$ des valeurs sont en effet nécessaires à rapporter malgré leur invalidité non négligeable dans une étude problématique (une classe dans laquelle se trouvent trop d'articles publiés), on pourrait les minimiser implicitement. Pensez plutôt à concentrer votre narration - peut-être même exclusivement - sur la taille des effets. Si votre étude est suffisamment représentative pour être utilement informative (cela ne devrait pas nécessiter un échantillonnage parfaitement aléatoire, seulement une prudence dans la généralité des interprétations), la taille de vos effets devrait avoir des implications plus larges que simplement indiquer l'existence et les directions des relations ou des différences de toute façon. Concentrer sa discussion sur la taille des effets peut faciliter une compréhension plus approfondie de l'importance des relations ou des différences dans un sens pratique, bien que cela doive encore être considéré dans le contexte du sujet d'étude (par exemple, $r = .03$ $p$ $p$ $p$

Une autre option, potentiellement complémentaire, serait de développer votre note de bas de page. Vos deux descriptions du problème telles que les examinateurs l'ont vécu, et la réponse actuellement acceptée sur cette page, suggèrent que pas assez d'informations sont transmises pour expliquer votre motivation pour inclure la note de bas de page, ni assez pour motiver le lecteur à suivre votre citation à la référence que vous utilisez pour l'expliquer si laconiquement. Une seule phrase supplémentaire, même une brève citation de votre référence, pourrait grandement expliquer la valeur de votre note de bas de page et motiver les lecteurs à lire plus en profondeur. De toute évidence, votre note de bas de page motive plus tôt une réaction simple, négative et dédaigneuse envers votre tentative discrète de perturber leur complaisance à propos de leurs hypothèses incorrectes. Les lecteurs peuvent être un peu moins paresseux intellectuellement si vous leur donnez un ou deux des principaux points sur les problèmes qu'ils négligent probablement régulièrement. De plus, pour de nombreux problèmes particuliers $p$

$p$

$p$ $p$ Pourquoi les résultats de 0,05 <p <0,95 sont-ils appelés faux positifs? " En discutant de ma réponse, le PO a soulevé Hurlbert et Lombardi ⁽²⁰⁰⁹⁾ , que j'ai évoquée avec mes collègues, dont l'un a ensuite évoqué Nuzzo ⁽²⁰¹⁴⁾ , un tout nouvel article de Nature News qui a généré encore plus de références ^{( Goodman, 2001} $p$

Les références

^{- Goodman, SN (1992). Un commentaire sur la réplication, les valeurs P et les preuves. Statistics in Medicine, 11 (7), 875–879.

- Goodman, SN (2001). Des valeurs P et Bayes: une proposition modeste. Epidemiology, 12 (3), 295-297. Extrait de http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .

- Goodman, S. (2008). Une sale douzaine: douze idées fausses de valeur P. Séminaires d'hématologie, 45 (3), 135-140. Extrait de http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .

- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M. et Greenberg, DA (2007). Non-réplication des études d'association: «pseudo-échecs» à répliquer? Genetics in Medicine, 9 (6), 325–331. Extrait de http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .

- Hurlbert, SH et Lombardi, CM (2009). Effondrement final du cadre théorique de décision Neyman – Pearson et montée du néofisherien. Annales Zoologici Fennici, 46 (5), 311–349. Extrait de http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .

- Lew, MJ (2013). To P or not to P: Sur la nature probante des valeurs P et leur place dans l'inférence scientifique. arXiv: 1311.0081 [stat.ME]. Récupéré dehttp://arxiv.org/abs/1311.0081 .

- Nuzzo, R. (2014, 12 février). Méthode scientifique: erreurs statistiques. Nature News, 506 (7487). Extrait de http://www.nature.com/news/scientific-method-statistical-errors-1.14700 .

- Rosenthal, R., Rosnow, RL et Rubin, DB (2000). Contrastes et tailles d'effet dans la recherche comportementale: une approche corrélationnelle. La presse de l'Universite de Cambridge.

- Senn, S. (2001). Deux acclamations pour les valeurs P? Journal of Epidemiology and Biostatistics, 6 (2), 193-204. Extrait de http://www.phil.vt.edu/dmayo/conference_2010/Senn%20Two%20Cheers%20Paper.pdf .

- Wagenmakers, EJ (2007). Une solution pratique aux problèmes omniprésents devaleurs p . Psychonomic Bulletin & Review, 14 (5), 779–804. Extrait de http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .}

— Nick Stauner
source

Toutes les critiques des valeurs P ne sont pas correctes ou justifiées, malgré leur véhémence. Vous devriez voir ces deux articles pour quelques contrepoints aux commentaires que vous citez: Two Cheers for P Values (par Stephen Senn) phil.vt.edu/dmayo/conference_2010/… ; To P or Not To P (par moi) arxiv.org/abs/1311.0081

— Michael Lew

Excellent point! Merci! J'ai légèrement modifié pour inclure vos contributions, et je pourrai en modifier un peu plus une fois que je les comprendrai assez bien pour incorporer leurs implications dans le reste de ce que j'ai dit. C'est pourquoi j'aime Cross Validated ...

— Nick Stauner

Avez-vous des preuves expérimentales en faveur de votre affirmation selon laquelle l'hypothèse d'Edwards s'étend aux valeurs de p? Je me trouve extrêmement sceptique. Ma façon d'analogie, j'ai vu quelques articles qui démontrent que même les scientifiques des données expérimentés ont du mal à estimer un coefficient de corrélation à partir d'un nuage de points. Il semble que vous demandiez beaucoup plus aux scientifiques pour savoir ce que signifie une valeur ap en termes de probabilité. Votre argument en faveur des fonctions de vraisemblance est intéressant ... elles ont tendance à ressembler un peu aux distributions postérieures, non?

— russellpierce

@rpierce Je n'ai pas de preuves expérimentales pour la compréhension des utilisateurs des méthodes statistiques. Cependant, je soutiens qu'au moins certaines des études qui ont été faites pour voir si les scientifiques `` comprennent '' les valeurs de p sont fatalement viciées en n'incluant pas parmi les options une véritable description évidemment significative de la valeur de p. Votre analogie n'est pas proche car le fait que les coefficients de corrélation ne soient pas facilement estimés n'est pas le même problème que d'estimer la force de la preuve à partir d'une valeur de p.

— Michael Lew

@rpierce La fonction de densité de probabilité postérieure d'un a priori uniforme sera proportionnelle à la fonction de vraisemblance.

— Michael Lew