L'utilité des tailles d'effet par rapport aux valeurs de p (ainsi que d'autres mesures de l'inférence statistique) est régulièrement débattue dans mon domaine - la psychologie - et le débat est actuellement plus «chaud» que la normale pour des raisons pertinentes pour votre question. Et même si je suis sûr que la psychologie n'est pas nécessairement le domaine scientifique le plus sophistiqué statistiquement, elle a facilement discuté, étudié - et parfois démontré - les limites de diverses approches de l'inférence statistique, ou du moins comment elles sont limitées par l'utilisation humaine. Les réponses déjà publiées contiennent de bonnes informations, mais si vous êtes intéressé par une liste (et références) plus détaillée des raisons pour et contre chacune, voir ci-dessous.
Pourquoi les valeurs p ne sont-elles pas souhaitables?
- Comme le note Darren James (et sa simulation le montre), les valeurs de p dépendent largement du nombre d'observations que vous avez (voir Kirk, 2003)
- Comme le note Jon, les valeurs de p représentent la probabilité conditionnelle d'observer des données comme extrêmes ou plus extrêmes étant donné que l'hypothèse nulle est vraie. Comme la plupart des chercheurs préfèrent avoir des probabilités sur l'hypothèse de recherche et / ou l'hypothèse nulle, les valeurs de p ne parlent pas des probabilités qui intéressent le plus les chercheurs (c.-à-d. L'hypothèse nulle ou de recherche, voir Dienes, 2008)
- Beaucoup de ceux qui utilisent des valeurs de p ne comprennent pas ce qu'ils veulent dire / ne veulent pas dire (Schmidt & Hunter, 1997). La référence de Michael Lew à l'article de Gelman et Stern (2006) souligne davantage les malentendus des chercheurs sur ce que l'on peut (ou ne peut pas) interpréter à partir des valeurs de p. Et comme le montre une histoire relativement récente sur FiveThirtyEight , cela continue d'être le cas.
- Les valeurs de p ne sont pas excellentes pour prédire les valeurs de p suivantes (Cumming, 2008)
- Les valeurs de p sont souvent mal déclarées (le plus souvent gonflant la signification), et les fausses déclarations sont liées à une réticence à partager des données (Bakker et Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011)
- Les valeurs de p peuvent être (et historiquement, ont été) activement déformées grâce à la flexibilité analytique, et ne sont donc pas fiables (John et al., 2012; Simmons et al., 2011)
- Les valeurs de p sont disproportionnellement significatives, car les systèmes universitaires semblent récompenser les scientifiques pour leur importance statistique par rapport à leur précision scientifique (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)
Pourquoi les tailles d'effet sont-elles souhaitables?
Notez que j'interprète votre question comme se référant spécifiquement à des tailles d'effet standardisées, car vous dites qu'elles permettent aux chercheurs de transformer leurs résultats «EN UNE MÉTRIQUE COMMUNE».
- Comme Jon et Darren James l'indiquent, la taille des effets indique l'ampleur d'un effet, indépendamment du nombre d'observations (American Psychological Association 2010; Cumming, 2014) par opposition à la prise de décisions dichotomiques quant à savoir si un effet est présent ou non.
- Les tailles d'effet sont précieuses car elles rendent possibles les méta-analyses et les méta-analyses stimulent les connaissances cumulatives (Borenstein et al., 2009; Chan et Arvey, 2012)
- La taille des effets aide à faciliter la planification de la taille de l'échantillon via une analyse de puissance a priori , et donc une allocation efficace des ressources dans la recherche (Cohen, 1992)
Pourquoi les valeurs p sont-elles souhaitables?
Bien qu'elles soient moins fréquemment adoptées, les valeurs de p ont un certain nombre d'avantages. Certains sont bien connus et de longue date, tandis que d'autres sont relativement nouveaux.
Les valeurs P fournissent un indice pratique et familier de la force des preuves par rapport à l'hypothèse nulle du modèle statistique.
Lorsqu'elles sont calculées correctement, les valeurs p fournissent un moyen de prendre des décisions dichotomiques (qui sont parfois nécessaires), et les valeurs p aident à maintenir les taux d'erreur faux positifs à long terme à un niveau acceptable (Dienes, 2008; Sakaluk, 2016) [It n'est pas strictement correct de dire que les valeurs P sont requises pour les décisions dichotomiques. Ils sont en effet largement utilisés de cette façon, mais Neyman & Pearson a utilisé des «régions critiques» dans l'espace statistique de test à cette fin. Voir cette question et ses réponses]
- Les valeurs de p peuvent être utilisées pour faciliter une planification efficace de la taille de l'échantillon en continu (pas seulement une analyse de puissance unique) (Lakens, 2014)
- Les valeurs de p peuvent être utilisées pour faciliter la méta-analyse et évaluer la valeur probante (Simonsohn et al., 2014a; Simonsohn et al., 2014b). Voir cet article de blog pour une discussion accessible sur la façon dont les distributions de valeurs de p peuvent être utilisées de cette manière, ainsi que ce post de CV pour une discussion connexe.
- Les valeurs de p peuvent être utilisées à des fins médico-légales pour déterminer si des pratiques de recherche douteuses peuvent avoir été utilisées et comment les résultats peuvent être reproduits (Schimmack, 2014; voir également l'application de Schönbrodt, 2015)
Pourquoi les tailles d'effet sont-elles indésirables (ou surévaluées)?
Peut-être la position la plus contre-intuitive pour beaucoup; pourquoi la déclaration de tailles d'effet normalisées ne serait-elle pas souhaitable ou, à tout le moins, surestimée?
- Dans certains cas, les tailles d'effet normalisées ne sont pas tout ce qu'elles sont censées être (par exemple, Groenland, Schlesselman et Criqui, 1986). Baguely (2009), en particulier, a une belle description de certaines des raisons pour lesquelles les tailles d'effet brutes / non standardisées peuvent être plus souhaitables.
- Malgré leur utilité pour l'analyse de puissance a priori, les tailles d'effet ne sont pas réellement utilisées de manière fiable pour faciliter une planification efficace de la taille de l'échantillon (Maxwell, 2004)
- Même lorsque les tailles d'effet sont utilisées dans la planification de la taille de l'échantillon, car elles sont gonflées par un biais de publication (Rosenthal, 1979) , les tailles d'effet publiées sont d'une utilité discutable pour une planification fiable de la taille de l'échantillon (Simonsohn, 2013)
- Les estimations de la taille de l'effet peuvent être - et ont été - systématiquement mal calculées dans les logiciels statistiques (Levine et Hullet, 2002)
- Les tailles d'effet sont extraites par erreur (et probablement mal déclarées), ce qui mine la crédibilité des méta-analyses (Gøtzsche et al., 2007)
- Enfin, la correction du biais de publication dans la taille des effets reste inefficace (voir Carter et al., 2017), ce qui, si vous pensez qu'il existe un biais de publication, rend les méta-analyses moins impactantes.
Sommaire
Faisant écho à l'argument avancé par Michael Lew, les valeurs de p et les tailles d'effet ne sont que deux éléments de preuve statistique; il y en a d'autres à considérer Mais comme les valeurs de p et les tailles d'effet, d'autres mesures de la valeur probante ont également des problèmes communs et uniques. Les chercheurs appliquent et interprètent généralement mal les intervalles de confiance (par exemple, Hoekstra et al., 2014; Morey et al., 2016), par exemple, et les résultats des analyses bayésiennes peuvent être déformés par les chercheurs, tout comme lorsqu'ils utilisent des valeurs de p (par exemple, Simonsohn , 2014).
Toutes les métriques de preuves ont gagné et tous doivent avoir des prix.
Les références
Association Américaine de Psychologie. (2010). Manuel de publication de l'American Psychological Association (6e édition). Washington, DC: Association américaine de psychologie.
Baguley, T. (2009). Taille d'effet standardisée ou simple: que faut-il signaler?. British Journal of Psychology, 100 (3), 603-617.
Bakker, M. et Wicherts, JM (2011). Le (mauvais) rapport des résultats statistiques dans les revues de psychologie. Méthodes de recherche sur le comportement, 43 (3), 666-678.
Borenstein, M., Hedges, LV, Higgins, J., & Rothstein, HR (2009). Introduction à la méta-analyse. West Sussex, Royaume-Uni: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM et Hilgard, J. (2017, 12 août). Corriger les biais en psychologie: une comparaison des méthodes méta-analytiques. Récupéré de osf.io/preprints/psyarxiv/9h3nu
Chan, ME et Arvey, RD (2012). Méta-analyse et développement des connaissances. Perspectives on Psychological Science, 7 (1), 79-92.
Cohen, J. (1992). Un apprêt puissant. Bulletin psychologique, 112 (1), 155-159.
Cumming, G. (2008). Réplication et intervalles p: les valeurs p ne prédisent que vaguement l'avenir, mais les intervalles de confiance font bien mieux. Perspectives on Psychological Science, 3, 286–300.
Dienes, D. (2008). Comprendre la psychologie en tant que science: introduction à l'inférence scientifique et statistique. New York, NY: Palgrave MacMillan.
Fanelli, D. (2010). Les résultats «positifs» augmentent la hiérarchie des sciences. PloS one, 5 (4), e10068.
Gelman, A. et Stern, H. (2006). La différence entre «significatif» et «non significatif» n'est pas elle-même statistiquement significative. The American Statistician, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K. et Tendal, B. (2007). Erreurs d'extraction de données dans les méta-analyses qui utilisent des différences moyennes normalisées. JAMA, 298 (4), 430-437.
Groenland, S., Schlesselman, JJ, & Criqui, MH (1986). L'illusion d'utiliser des coefficients de régression et des corrélations normalisés comme mesures de l'effet. American Journal of Epidemiology, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN et Wagenmakers, EJ (2014). Interprétation erronée robuste des intervalles de confiance. Bulletin et revue psychonomiques, 21 (5), 1157-1164.
John, LK, Loewenstein, G., et Prelec, D. (2012). Mesurer la prévalence de pratiques de recherche douteuses avec des incitations à dire la vérité. PsychologicalSscience, 23 (5), 524-532.
Kirk, RE (2003). L'importance de l'ampleur de l'effet. Dans SF Davis (Ed.), Handbook of research methods in experimental psychology (pp. 83-105). Malden, MA: Blackwell.
Lakens, D. (2014). Réalisation efficace d'études de grande puissance avec des analyses séquentielles. Journal européen de psychologie sociale, 44 (7), 701-710.
Levine, TR et Hullett, CR (2002). Eta au carré, eta au carré partiel et mauvaise déclaration de la taille de l'effet dans la recherche en communication. Recherche en communication humaine, 28 (4), 612-625.
Maxwell, SE (2004). La persistance d'études sous-performantes en recherche psychologique: causes, conséquences et remèdes. Méthodes psychologiques, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD et Wagenmakers, EJ (2016). L'erreur de placer la confiance dans les intervalles de confiance. Bulletin et revue psychonomiques, 23 (1), 103-123.
Nosek, BA, Spies, JR et Motyl, M. (2012). Utopie scientifique: II. Incitations et pratiques de restructuration pour promouvoir la vérité au détriment de la publication. Perspectives on Psychological Science, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S., & Wicherts, JM (2016). La prévalence des erreurs de déclaration statistique en psychologie (1985-2013). Méthodes de recherche sur le comportement, 48 (4), 1205-1226.
Rosenthal, R. (1979). Le problème du tiroir de fichiers et la tolérance pour les résultats nuls. Bulletin psychologique, 86 (3), 638-641.
Sakaluk, JK (2016). Explorer petit, confirmer grand: Un système alternatif aux nouvelles statistiques pour faire avancer la recherche psychologique cumulative et reproductible. Journal of Experimental Social Psychology, 66, 47-54.
Schimmack, U. (2014). Quantifier l'intégrité de la recherche statistique: l'indice de réplicabilité. Récupéré de http://www.r-index.org
Schmidt, FL et Hunter, JE (1997). Huit objections courantes mais fausses à l'interruption des tests de signification dans l'analyse des données de recherche. Dans LL Harlow, SA Mulaik et JH Steiger (éd.), Que faire s'il n'y avait pas de tests de signification? (p. 37–64). Mahwah, NJ: Erlbaum.
Schönbrodt, FD (2015). p-checker: Analyseur de valeur p un pour tous. Récupéré de http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD et Simonsohn, U. (2011). Psychologie faussement positive: la flexibilité non divulguée dans la collecte et l'analyse des données permet de présenter tout ce qui est significatif. Psychological science, 22 (11), 1359-1366.
Simonsohn, U. (2013). La folie d'alimenter les réplications en fonction de la taille de l'effet observé. Extrait de http://datacolada.org/4
Simonsohn, U. (2014). Piratage postérieur. Extrait de http://datacolada.org/13 .
Simonsohn, U., Nelson, LD et Simmons, JP (2014). Courbe en P: une clé pour le tiroir de fichiers. Journal of Experimental Psychology: General, 143 (2), 534-547.
Simonsohn, U., Nelson, LD et Simmons, JP (2014). Courbe P et taille de l'effet: correction du biais de publication en utilisant uniquement des résultats significatifs. Perspectives on Psychological Science, 9 (6), 666-681.
Wicherts, JM, Bakker, M. et Molenaar, D. (2011). La volonté de partager les données de recherche est liée à la force des preuves et à la qualité de la communication des résultats statistiques. PloS one, 6 (11), e26828.