Exemples d'études utilisant p <0,001, p <0,0001 ou des valeurs de p encore plus faibles?


11

Je viens des sciences sociales, où p <0,05 est à peu près la norme, avec p <0,1 et p <0,01 également, mais je me demandais: quels domaines d'études, le cas échéant, utilisent des valeurs de p inférieures comme un commun la norme?

Réponses:


9

À mon avis, cela ne dépend (et ne devrait pas) dépendre du domaine d'études. Par exemple, vous pourriez bien travailler à un niveau de signification inférieur à si, par exemple, vous essayez de reproduire une étude avec des résultats historiques ou bien établis (je peux penser à plusieurs études sur l' effet Stroop , qui avaient conduit à à quelques controverses au cours des dernières années). Cela revient à considérer un «seuil» inférieur dans le cadre classique de Neyman-Pearson pour tester l'hypothèse. Cependant, la signification statistique et pratique (ou substantielle) est une autre question.p<0.001

Sidenote . Le "système stellaire" semble avoir dominé les recherches scientifiques dès les années 70, mais voir The Earth Is Round (p <.05), par J. Cohen ( American Psychologist , 1994, 49 (12), 997-1003), malgré le fait que ce que nous voulons souvent savoir est donné les données que j'ai observées, quelle est la probabilité que soit vrai? Quoi qu'il en soit, il y a aussi une belle discussion sur " Pourquoi P = 0,05? ", Par Jerry Dallal.H0


Veuillez corriger mon train de pensées: certains domaines peuvent se concentrer sur, disons, l'exposition biochimique, et donc vouloir utiliser p <0,001 afin d'éviter toute erreur de type I qui pourrait entraîner des risques pour la santé. De plus, le long de cet article d' Am Psych , je me souviens également d'une grande étude dans le Am J de Sociol ou dans l'une des revues soc sci que je suis. Mon préféré est, bien sûr, Ziliak et McCloskey .
Fr.

1
Ce que vous décrivez ici sonne à l'envers. Je serais préoccupé par les erreurs de type II, en disant que quelque chose n'est pas là quand c'est, avec une exposition biochimique. Dans ce cas, je pourrais régler l'alpha plus haut, pas plus bas.
John

Je travaillais sous l'hypothèse que le test aurait la forme: "Évaluons si la grossesse est liée au THS" (dans ce cas, une erreur de type I est plus grave qu'une erreur de type II, mais peut-être que cette conception n'est pas standard).
Fr.

7

Il peut être rare pour quiconque d'utiliser un niveau alpha prédéfini inférieur à, disons, 0,01, mais il n'est pas aussi rare que les gens prétendent un alpha implicite inférieur à 0,01 dans la croyance erronée qu'une valeur de P observée inférieure à 0,01 est identique à un alpha de Neyman-Pearson inférieur à 0,01.

Les valeurs de P de Fisher ne sont pas identiques ou interchangeables avec les taux d'erreur de Neyman-Pearson. ne signifie pas moins que l'on n'ait décidé d'utiliser comme niveau critique de signification lors de la conception de l'expérience. Si vous auriez pris comme significatif, alors signifie qu'il y a une probabilité de d'une affirmation faussement positive.α = 0,0023 0,0023 P = 0,05 P = 0,0023 0,05P=0.0023α=0.00230.0023P=0.05P=0.00230.05

Jetez un œil à Hubbard et al. Confusion sur les mesures des preuves (p) contre les erreurs (α) dans les tests statistiques classiques. The American Statistician (2003) vol. 57 (3)


Je comprends la distinction, bien que je fasse probablement l'erreur régulièrement. Mais ma question est, y a-t-il une utilisation conventionnelle, quelque part là-bas, de p <.0001 par exemple? Ou, pour le dire de façon provocante, le culte p <0,05 est-il universel?
Fr.

Le `` culte '' de P <0,05 peut être presque universel, mais il n'est pas possible de se fier à des affirmations sur ce point, car les exceptions apparentes sont très probablement le résultat d'une hybridation inconsciente des méthodes de Fisher et Neyman-Pearson. Dans les articles de recherche pharmacologique fondamentale, il n'y a presque jamais de déclaration explicite concernant l'utilisation des taux d'erreur de Neyman-Pearson.
Michael Lew

Merci pour l'exemple. Je suis de moins en moins impressionné par la recherche pharmacologique, pour de nombreuses raisons (pas toutes scientifiques)…
Fr.

1
Vous ne devriez pas prendre mon commentaire sur la recherche pharmacologique fondamentale comme une critique spécifique de ce domaine, c'est juste ma propre discipline particulière et donc celle avec laquelle je suis le plus expérimenté. Je suis convaincu que vous trouverez de nombreux domaines de la recherche fondamentale présentant exactement les mêmes lacunes en ce qui concerne les valeurs de P hybrides et les taux d'erreur.
Michael Lew

Pas de soucis, je peux facilement imaginer que cette lacune traverse bien les champs d'enquête.
Fr.

3

Je ne connais pas très bien cette littérature mais je crois que certains physiciens utilisent des seuils beaucoup plus bas dans les tests statistiques mais ils en parlent un peu différemment. Par exemple, si une mesure est à trois écarts-types de la prédiction théorique, elle est décrite comme un écart de «trois sigma». Fondamentalement, cela signifie que le paramètre d'intérêt est statistiquement différent de la valeur prédite dans le test az avec α = 0,01. Deux sigma équivaut à peu près à α = 0,05 (en fait ce serait 1,96 σ). Si je ne me trompe pas, le niveau d'erreur standard en physique est de 5 sigma, ce qui serait α = 5 * 10 ^ -7

De plus, en neuroscience ou en épidémiologie, il semble de plus en plus courant d'effectuer régulièrement des corrections pour des comparaisons multiples. Le niveau d'erreur pour chaque test individuel peut donc être inférieur à p <.01


1
L'épidémiologie génétique utilise systématiquement dans les études d'association à l'échelle du génome, souvent quel que soit le nombre précis de tests effectués. α=5×108
invité

1

Comme l'a noté Gaël Laurans ci-dessus, les analyses statistiques qui se heurtent au problème de la comparaison multiple ont tendance à utiliser des seuils plus conservateurs. Cependant, ils utilisent essentiellement 0,05, mais multiplié par le nombre de tests. Il est évident que cette procédure (correction de Bonferroni) peut rapidement conduire à des valeurs de p incroyablement petites. C'est pourquoi les gens dans le passé (en neuroscience) se sont arrêtés à p <0,001. De nos jours, d'autres méthodes de corrections de comparaison multiples sont utilisées (voir la théorie du champ aléatoire de Markov).

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.