En ce qui concerne les valeurs p, pourquoi 1% et 5%? Pourquoi pas 6% ou 10%?


80

En ce qui concerne les , je me demande pourquoi % et % semblent être la norme absolue . Pourquoi pas d'autres valeurs, comme % ou %?15"statistical significance"610

Y a-t-il une raison mathématique fondamentale à cela, ou s'agit-il simplement d'une convention largement répandue?


2
Et si tout le monde avait 12 doigts? Nous compterions la base 12 et non la base 10. Cela signifie que le "1%" serait 1/144 ou 0,0069444444.
Contango

Réponses:


77

Si vous vérifiez les références ci-dessous, vous constaterez quelques variations dans l'arrière-plan, bien que certains éléments soient communs.

Ces chiffres sont au moins en partie basés sur certains commentaires de Fisher, où il a dit

(en discutant d'un niveau de 1/20)

Il convient de considérer ce point comme une limite pour déterminer si un écart doit être considéré comme significatif ou non. Les écarts supérieurs à deux fois l'écart type sont donc officiellement considérés comme significatifs.

Fisher, RA (1925) Méthodes statistiques pour les chercheurs , p. 47

Par contre, il était parfois plus large:

Si une chance sur vingt ne semble pas être assez bonne, nous pouvons, si nous le préférons, tracer la ligne à un sur cinquante (le point de 2%) ou à un sur cent (le point de 1%). Personnellement, le rédacteur préfère définir un seuil de signification bas au point de 5% et ignorer totalement tous les résultats qui ne parviennent pas à atteindre ce niveau. Un fait scientifique ne doit être considéré comme établi expérimentalement que si une expérience correctement conçue manque rarement à ce niveau de signification.

Fisher, RA (1926) La disposition des expériences sur le terrain . Journal du Ministère de l'agriculture, p. 504

Fisher a également utilisé 5% pour l'une des tables de son livre - mais la plupart de ses autres tables présentaient une plus grande variété de niveaux de signification.

Certains de ses commentaires ont suggéré des approches plus ou moins strictes (niveaux d'alpha plus ou moins élevés) dans différentes situations.

Ce type de discussion ci-dessus a conduit à une tendance à produire des tableaux mettant en évidence des niveaux de signification de 5% et 1% (et parfois avec d'autres, comme 10%, 2% et 0,5%), faute de toute autre valeur «standard» à utiliser.

Cependant, dans cet article , Cowles et Davis suggèrent que l’utilisation de 5% - ou d’une valeur proche du moins - remonte au-delà du commentaire de Fisher.

En bref, notre utilisation de 5% (et dans une moindre mesure de 1%) est une convention plutôt arbitraire, bien que beaucoup de gens semblent clairement penser que, pour de nombreux problèmes, ils sont dans le bon genre de stade.

Il n'y a aucune raison pour qu'une valeur particulière soit utilisée en général.

Autres références:

Dallal, Gerard E. (2012). Le petit manuel de pratique statistique. - Pourquoi 0,05?

Stigler, Stephen (décembre 2008). "Fisher et le niveau de 5%". Chance 21 (4): 12. disponible ici

(Entre eux, vous avez un peu d’arrière-plan - il semble y avoir de bonnes raisons de penser que les niveaux de signification ont au moins une valeur approximative de 5% - disons entre 2% et 10% - s’étant plus ou moins l'air pendant un moment.)


36

Je dois donner une non-réponse (comme ici ):

"... sûrement, Dieu aime le .06 presque autant que le .05. Peut-il y avoir un doute sur le fait que Dieu considère la force de la preuve pour ou contre le nul comme une fonction assez continue de la magnitude de p?" (p.1277)

Rosnow, RL et Rosenthal, R. (1989). Procédures statistiques et justification des connaissances en sciences psychologiques. American Psychologist , 44 (10), 1276-1284. pdf

Le document contient plus de discussion sur cette question.


9
Et qu'en est-il de 0,055? :)
nico

33
@nico Personne n'aime
0.055

18

Je crois qu'il existe une certaine psychologie sous-jacente pour les 5%. Je dois dire que je ne me souviens pas de l'endroit où j'ai pris cela, mais voici l'exercice que j'avais l'habitude de faire avec chaque classe de statistiques d'introduction de premier cycle.

Imaginez un étranger qui vous aborde dans un pub et vous dit: "J'ai une pièce biaisée qui produit plus de têtes que de queues. Voulez-vous m'en acheter une pour pouvoir parier avec vos copains et gagner de l'argent?" Vous acceptez avec hésitation de jeter un coup d'œil et lancez la pièce 10 fois. Question : combien de fois faut-il atterrir têtes / queues pour vous convaincre qu'il est partial?

Je prends ensuite la main levée: qui serait convaincu que la pièce est biaisée si la division est de 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? Eh bien, les deux ou trois premiers ne convaincront personne et le dernier convaincra tout le monde. 2/8 et 1/9 convainqueraient la plupart des gens, cependant. Maintenant, si vous regardez la table binomiale, 2/8 correspond à 5,5% et 1/9 correspond à 1%. QED.

Si quelqu'un enseigne actuellement un cours d'introduction au premier cycle, je vous encouragerais également à exécuter cet exercice et à publier vos résultats sous forme de commentaires afin que nous puissions accumuler un grand nombre de résultats de méta-analyses et les publier au moins dans The American. Coin pédagogique des statisticiens . N'hésitez pas à faire varier les conditions et unilatérales par rapport aux conditions bilatérales!n

Dans une autre réponse, Glen_b cite Fisher expliquant si ces chiffres magiques doivent être modifiés en fonction de la gravité du problème . Ne le spécifiez pas . 3 mois ou tuez-la en 3 jours, alors retournons quelques pièces "- cela aurait l'air aussi stupide que le fameux comic xkcd que même Andrew Gelman n'a pas aimé.

En parlant de pièces de monnaie et de Gelman, TAS avait écrit un article très curieux de Gelman et Nolan intitulé "Vous pouvez charger un dé, mais vous ne pouvez pas biaiser une pièce de monnaie" , mettant en avant un argument selon lequel la pièce de monnaie, retournée dans les airs ou tournée table, passera environ la moitié du temps en heads-up et l'autre fois en queue de pitre, il est donc difficile de trouver un mécanisme physique pour biaiser sérieusement une pièce de monnaie. (Il s'agissait clairement d'une recherche effectuée dans un pub, car ils ont expérimenté l'utilisation de capsules de bouteilles de bière.) D'autre part, charger un dé est une tâche relativement facile, et j'ai donné à mes étudiants un exercice dans lequel ils mesuraient environ 1 cm / demi. Pouces en bois provenant d'un magasin de loisirs local et papier de verre leur demandant de charger le dé et de me prouver qu'il est chargé - ce qui était un exercice dans le test Pearson pour les proportions et son pouvoir.χ2


3
Les magiciens peuvent souvent contrôler les pièces. Statisticien-mathématicien-magicien (permute au goût) Persi Diaconis est bien connu pour cela (et beaucoup, beaucoup d'autres).
Nick Cox

@StasK - Il y a quelques années, j'ai posé une question similaire à celle de votre deuxième paragraphe ci-dessus. Voici le lien: stats.stackexchange.com/questions/7036/…
bill_080

Bill, vous avez demandé sur le pouvoir, essentiellement. Cette question concerne le niveau du test.
StasK

9

5% semble avoir été arrondi à partir de 4,56% par Fisher, ce qui correspond "aux zones d'extrémité de la courbe au-delà de la moyenne plus trois ou moins trois erreurs probables" (Hurlbert et Lombardi, 2009).

Un autre élément de l’histoire semble être la reproduction de tableaux avec des critiques (Pearson et al., 1990; Lehmann, 1993). Pearson n'a pas autorisé Fisher à utiliser ses tableaux (probablement à cause de la commercialisation par Pearson de sa propre publication (Hurlbert & Lombardi, 2009) et de la nature problématique de leur relation.

Hurlbert, SH et Lombardi, CM (octobre 2009). Effondrement final du cadre théorique de la décision Neyman-Pearson et montée du néo-pêcheur. Dans Annales Zoologici Fennici (Vol. 46, N ° 5, p. 311-349). Publication zoologique et botanique finlandaise

Lehmann, EL (1993). Théories de Fisher, Neyman-Pearson sur la vérification des hypothèses: une théorie ou deux?. Journal de l'Association américaine de statistique, 88 (424), 1242-1249.

Pearson, ES, Gosset, WS, Plackett, RL et Barnard, GA (1990). Étudiant: biographie statistique de William Sealy Gosset. Oxford University Press, États-Unis.

Voir aussi: Gigerenzer, G. (2004). Statistiques stupides. The Journal of Socio-Economics, 33 (5), 587-606.

Hubbard, R. et Lindsay, RM (2008). Pourquoi les valeurs de p ne constituent-elles pas une mesure utile de la preuve dans les tests de signification statistique? Théorie et psychologie, 18 (1), 69-88.


7

Il me semble que la réponse est plus dans la théorie des jeux de la recherche que dans les statistiques. Avoir 1% et 5% brûlés dans la conscience générale signifie que les chercheurs ne sont pas réellement libres de choisir les niveaux de signification qui conviennent à leurs prédispositions. Supposons que nous ayons vu un papier avec une valeur p de 0,055 et que le seuil de signification ait été fixé à 6% - des questions seraient posées. 1% et 5% fournissent une forme d'engagement crédible.


7
Peut-être, mais pensez - vous que les chercheurs ne manipule pas des régressions, utiliser des tests répétés, etc. pour presser sous le niveau établi de 5% par exemple ...
kirk

Bien sûr, cela est possible et cela se produit probablement. Mais la question était d'environ 1% et 5%. Il me semble que c'est une tentative d'établir une convention sociale sur le moment d'accepter quelque chose d'aussi important. Celles-ci sont arbitraires, mais elles sont arbitraires pour les chercheurs en tant que groupe plutôt qu'arbitraires pour des chercheurs individuels.
conjectures

3
D'accord, je soulignais simplement qu'avoir des niveaux de signification conventionnels ne signifie pas qu'il ne faut pas poser de questions, comme vous l'avez inféré dans votre message. Ce n’est pas parce qu’un document présente un résultat significatif à un niveau conventionnel qu’il est crédible!
Kirk

Ah, j'utilisais crédible dans le sens de la théorie des jeux (ou de la tentative). Lorsque vous rendez une menace crédible, vous ne pouvez pas revenir en arrière ou changer d'avis par la suite. Dans ce cas, les chercheurs auraient du mal à se poser sur un autre seuil arbitraire.
conjectures

2
Ce à quoi @kirk fait référence se passe définitivement . Cela s'appelle -hacking . p
Nick Stauner

6

Mon hypothèse personnelle est que 0,05 (ou 1 sur 20) est associé à la valeur at / z de (très proche de) 2. Utiliser 2 est agréable, car il est très facile de repérer si votre résultat est statistiquement significatif. Il n'y a pas d'autres confluences de nombres arrondis.


7
Je doute que cela soit correct. Il existe bien sûr des "confluences de nombres arrondis": pourquoi ne pas utiliser une valeur critique de ou , par exemple? De plus, personne ne craignait de dresser de vastes tableaux de valeurs critiques il y a un siècle. Il est donc difficile de voir d'où viendrait la motivation. Z = 3Z=1Z=3
whuber

9
Au contraire, ils donnent de bons chiffres! Pour une distribution normale, les chances sont d'environ , , et pour . Toutes ces approximations sont plus précises qu'un chiffre significatif - et le "1 sur 20" est le pire du groupe (1 sur 22 serait beaucoup plus proche de la vérité). 1 / 20 1 / 400 1 / 16000 z = 1 , 2 , 3 , 41/31/201/4001/16000z=1,2,3,4
whuber

1
:) Hmm ... bon point. Mais vous devez être limité par ce que vous utiliseriez comme seuil: 1/3 est un peu laxiste, 1/400, une touche stricte.
Jeremy Miles

10
C'est exactement ce à quoi je veux en venir, Jeremy: la tradition des 5% et 1% est basée, au moins en partie, sur une notion de risque statistique ("un peu laxiste" ou "tactile strict") et ne le fait pas à l'origine. dériver de toute règle pratique.
whuber

1
@whuber Utiliser donne environ , et vous ne pouvez pas obtenir beaucoup plus de rondeur que cela! 1 / πZ=11/π
James

6

Le seul numéro correct est .04284731

... qui est une réponse désinvolte censée signifier que le choix de 0,05 est essentiellement arbitraire. En général, je ne signale que la valeur p, plutôt que ce qui est supérieur ou inférieur à.

La «signification» est une variable continue et, à mon avis, la discrétion fait souvent plus de mal que de bien. Je veux dire, si p = .13, vous avez plus de confiance que si p = .21 et moins que si p = .003


Eh bien, à l'époque des tables, on était plus ou moins obligé de discrétiser ... puisque les tables sont utilisées dans l'enseignement, cela continue ...
kjetil b halvorsen

@kjetilbhalvorsen et les fabricants de tables ont clairement commis une erreur en ne choisissant pas .04284731 pour leurs valeurs critiques.
generic_user

2

C'est un domaine de test d'hypothèse qui m'a toujours fasciné. Plus précisément parce qu'un jour, quelqu'un a choisi un nombre arbitraire qui dichotomise la procédure de test et depuis lors, il est rare qu'il soit mis en cause.

Je me souviens d’avoir demandé à un conférencier de ne pas trop miser sur le test des variables instrumentales Staiger et Stock (où le F-stat devrait être supérieur à 10 lors de la première régression afin d’éviter les problèmes d’instrument faible) car le nombre 10 était un choix complètement arbitraire. Je me souviens avoir dit "Mais n’est-ce pas ce que nous faisons avec des tests d’hypothèses réguliers ?????"


5
S'agit-il d'une réponse, @EconStats? Cela ressemble plus à un commentaire. N'oubliez pas que CV n'est pas conçu comme un forum de discussion. Souhaitez-vous que la réponse de cet article soit plus pertinente?
gung - Réintégrer Monica

1
Désolé @gung. Je suppose que mon propos était que, malgré certaines des preuves fournies par les autres utilisateurs, je pense toujours que la réponse la plus probable est que nous avons un système de numérotation décimale et qu'il est encore utilisé aujourd'hui pour trouver des nombres arbitraires pour les tests d'hypothèses. Par exemple, le test F Staiger et Stock que j'ai mentionné.
EconStats

1
En tant qu’affiche originale de cette question, j’estime que cela constitue certainement une réponse. Merci!
Contango

0

Pourquoi 1 et 5? Parce qu'ils se sentent bien.

Je suis sûr qu'il existe des études sur la valeur émotionnelle et la saillance cognitive de nombres spécifiques, mais nous pouvons comprendre le choix de 1 et 5 sans avoir à recourir à la recherche.

Les personnes qui ont créé les statistiques d'aujourd'hui sont nées, ont grandi et vivent dans un monde décimal. Bien sûr, il existe des systèmes de comptage non décimaux, et compter jusqu’à douze en utilisant les phalanges est possible et a été fait, mais ce n’est pas évident de la même manière que l’utilisation des doigts (qui sont donc appelés "chiffres", comme les chiffres ). Et tandis que vous (et Fisher) êtes au courant des systèmes de comptage non décimaux, le système décimal est et a été le système de comptage prédominant de votre (et du monde de Fisher) au cours des cent dernières années.

Mais pourquoi les chiffres cinq et un spécial? Parce que les deux sont les divisions les plus naturelles des dix de base: un doigt, une main (ou: demi).

Vous n'avez même pas besoin d'aller jusqu'à conceptualiser des fractions pour passer de dix à un et cinq. Celui-ci est simplement là, tout comme votre doigt est simplement là. Et réduire de moitié quelque chose est une opération beaucoup plus simple que de la diviser en une autre proportion. Tout couper en deux parties ne nécessite aucune réflexion, alors que diviser par trois ou quatre est déjà assez compliqué.

La plupart des systèmes monétaires actuels ont des pièces et des billets de banque avec des valeurs telles que 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000. Certains systèmes monétaires n’ont pas 2, 20 et 200, mais presque tous ont 1 et 5. En même temps, la plupart des systèmes monétaires n’ont pas de pièce de monnaie ou de billet qui commence par 3, 4, 6, 7, 8 ou 9. Intéressant, n’est-ce pas? Mais pourquoi est-ce vrai?

Parce qu'il vous faut toujours dix des 1 ou deux des 5 (ou cinq des 2) pour arriver à la prochaine commande plus importante. Calculer avec de l’argent est très simple: multiplié par dix ou le double. Juste deux types d'opérations. Chaque pièce que vous possédez correspond à la moitié ou au dixième de la pièce suivante. Ces chiffres se multiplient et s’additionnent facilement et bien.

Ainsi, les 1 et 5 ont été profondément enracinés, depuis leur plus tendre enfance, dans Fisher et ceux qui ont choisi les niveaux de signification comme étant les divisions de 10 les plus simples, les plus simples et les plus élémentaires. Tout autre nombre a besoin d'un argument, les chiffres sont simplement là.

En l'absence d'un moyen objectif de calculer le niveau de signification approprié pour chaque ensemble de données, les un et cinq se sentent bien.


"sans avoir à recourir à la recherche." Bien que je pense que la réponse est bonne, cela le place fermement dans le territoire de l'opinion. Cela prêterait beaucoup de crédibilité et rendrait la réponse plus crédible s’il existait des sources pour le confirmer.
Momo
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.