Cet article du New York Times " Les chances, continuellement mises à jour" a attiré mon attention. Pour être bref, il est écrit que
[Les statistiques bayésiennes] se révèlent particulièrement utiles pour aborder des problèmes complexes, y compris des recherches telles que celle utilisée par la Garde côtière en 2013 pour retrouver le pêcheur disparu, John Aldridge (mais pas jusqu'à présent dans la chasse au vol 370 de Malaysia Airlines). ......, les statistiques bayésiennes se répercutent dans tous les domaines, de la physique à la recherche sur le cancer, de l'écologie à la psychologie ...
Dans l'article, il y a aussi quelques critiques sur la p-valeur du fréquentiste, par exemple:
Les résultats sont généralement considérés comme «statistiquement significatifs» si la valeur p est inférieure à 5%. Mais il y a un danger dans cette tradition, a déclaré Andrew Gelman, professeur de statistique à Columbia. Même si les scientifiques ont toujours fait les calculs correctement - et ils ne le font pas, argue-t-il - accepter tout ce qui a une valeur p de 5% signifie qu'un résultat «statistiquement significatif» sur 20 n'est rien d'autre qu'un bruit aléatoire.
Outre ce qui précède, le plus célèbre article critiquant la valeur p est celui-ci - "Méthode scientifique: erreurs statistiques" de Regina Nuzzo, de Nature , dans lequel de nombreuses questions scientifiques soulevées par l’approche de la valeur p ont été examinées, telles que les problèmes de reproductibilité, piratage de valeur p, etc.
Les valeurs de p, «l'étalon-or» de la validité statistique, ne sont pas aussi fiables que le supposent de nombreux scientifiques. ...... La pire erreur est peut-être le genre de tromperie pour lequel le psychologue Uri Simonsohn de l'Université de Pennsylvanie et ses collègues ont popularisé le terme "P-hacking"; Il est également connu sous le nom de dragage de données, d'espionnage, de pêche, de poursuite de signification et de double-trempage. «Le piratage informatique», dit Simonsohn, «tente plusieurs choses jusqu'à ce que vous obteniez le résultat souhaité», même inconsciemment. ...... «Cette découverte semble avoir été obtenue par le piratage électronique, les auteurs ont abandonné l’une des conditions afin que la valeur globale globale soit inférieure à 0,05», et «Elle est un pirate informatique, elle surveille toujours les données pendant leur collecte. "
Une autre chose est une intrigue intéressante comme suit à partir d' ici , avec le commentaire à propos de l'intrigue:
Quelle que soit la taille de votre effet, vous pouvez toujours effectuer le difficile travail de collecte de données afin de dépasser le seuil de p <0,05. Tant que l'effet que vous étudiez n'est pas inexistant, les valeurs p mesurent simplement les efforts que vous avez consacrés à la collecte de données.
Avec tout ce qui précède, mes questions sont les suivantes:
Qu'est-ce que l'argument d'Andrew Gelman, dans la citation du deuxième bloc, signifie précisément? Pourquoi a-t-il interprété la valeur p de 5% comme "un résultat statistiquement significatif sur 20 ne tient compte que du bruit aléatoire"? Je ne suis pas convaincu car la valeur p est utilisée pour déduire une seule étude. Son point semble lié à de multiples tests.
Mise à jour: Consultez le blog d'Andrew Gelman à ce sujet: Non, ce n'est pas ce que j'ai dit! (Crédits à @Scortchi, @whuber).
Compte tenu des critiques formulées à propos de la valeur p et des nombreux critères d'information, tels que AIC, BIC et de Mallow pour évaluer la pertinence d'un modèle (donc de variables), ne devrions-nous pas utiliser la valeur p pour la sélection de variables? mais utiliser ces critères de sélection de modèle?
- Existe-t-il de bonnes indications pratiques sur l'utilisation de la valeur p pour l'analyse statistique, qui pourraient conduire à des résultats de recherche plus fiables?
Le cadre de modélisation bayésien serait-il un meilleur moyen de poursuivre, comme le préconise un statisticien? Plus précisément, une approche bayésienne serait-elle plus susceptible de résoudre les problèmes de recherche erronée ou de manipulation des données? Je ne suis pas convaincu ici non plus car le prieur est très subjectif dans l’approche bayésienne. Existe-t-il des études pratiques bien connues qui démontrent que l'approche bayésienne est meilleure que la valeur p du fréquentiste, ou du moins dans certains cas particuliers?
Mise à jour: Je souhaiterais particulièrement savoir s’il existe des cas où l’approche bayésienne est plus fiable que l’approche fréquentiste. Par "fiable", je veux dire que l'approche bayésienne est moins susceptible de manipuler des données pour obtenir les résultats souhaités. Aucune suggestion?
Mise à jour du 09/06/2015
Je viens de remarquer la nouvelle et j'ai pensé qu'il serait bon de la mettre ici pour discussion.
Un journal de psychologie interdit les valeurs P
Un test statistique controversé a finalement atteint sa fin, au moins dans un journal. Plus tôt ce mois-ci, les rédacteurs de BASP (Basic and Applied Social Psychology) ont annoncé que la revue ne publierait plus d'articles contenant des valeurs de P, car les statistiques étaient trop souvent utilisées pour soutenir des recherches de moindre qualité.
Avec un article récent, "La valeur instable de P génère des résultats non reproductibles" de Nature , à propos de la valeur de P.
Mise à jour 5/8/2016
En mars, l'Association américaine de statistique (ASA) a publié des déclarations sur la signification statistique et les valeurs p, "... La déclaration de l'ASA est destinée à orienter la recherche sur une ère" post p <0,05 "".
Cette déclaration contient 6 principes qui traitent de l’utilisation abusive de la valeur p:
- Les valeurs P peuvent indiquer dans quelle mesure les données sont incompatibles avec un modèle statistique spécifié.
- Les valeurs de probabilité ne mesurent pas la probabilité que l'hypothèse étudiée soit vraie, ni la probabilité que les données aient été produites uniquement par hasard.
- Les conclusions scientifiques et les décisions commerciales ou politiques ne doivent pas être fondées uniquement sur le fait qu'une valeur prédictive dépasse un seuil spécifique.
- Une inférence correcte exige un rapport complet et une transparence.
- Une valeur p, ou signification statistique, ne mesure pas la taille d'un effet ni l'importance d'un résultat.
- En soi, une valeur p ne fournit pas une bonne mesure des preuves concernant un modèle ou une hypothèse.
Détails: "L'instruction de l'ASA sur les valeurs p: contexte, processus et but" .