Réponses:
À mon avis, cela ne dépend (et ne devrait pas) dépendre du domaine d'études. Par exemple, vous pourriez bien travailler à un niveau de signification inférieur à si, par exemple, vous essayez de reproduire une étude avec des résultats historiques ou bien établis (je peux penser à plusieurs études sur l' effet Stroop , qui avaient conduit à à quelques controverses au cours des dernières années). Cela revient à considérer un «seuil» inférieur dans le cadre classique de Neyman-Pearson pour tester l'hypothèse. Cependant, la signification statistique et pratique (ou substantielle) est une autre question.
Sidenote . Le "système stellaire" semble avoir dominé les recherches scientifiques dès les années 70, mais voir The Earth Is Round (p <.05), par J. Cohen ( American Psychologist , 1994, 49 (12), 997-1003), malgré le fait que ce que nous voulons souvent savoir est donné les données que j'ai observées, quelle est la probabilité que soit vrai? Quoi qu'il en soit, il y a aussi une belle discussion sur " Pourquoi P = 0,05? ", Par Jerry Dallal.
Il peut être rare pour quiconque d'utiliser un niveau alpha prédéfini inférieur à, disons, 0,01, mais il n'est pas aussi rare que les gens prétendent un alpha implicite inférieur à 0,01 dans la croyance erronée qu'une valeur de P observée inférieure à 0,01 est identique à un alpha de Neyman-Pearson inférieur à 0,01.
Les valeurs de P de Fisher ne sont pas identiques ou interchangeables avec les taux d'erreur de Neyman-Pearson. ne signifie pas moins que l'on n'ait décidé d'utiliser comme niveau critique de signification lors de la conception de l'expérience. Si vous auriez pris comme significatif, alors signifie qu'il y a une probabilité de d'une affirmation faussement positive.α = 0,0023 0,0023 P = 0,05 P = 0,0023 0,05
Je ne connais pas très bien cette littérature mais je crois que certains physiciens utilisent des seuils beaucoup plus bas dans les tests statistiques mais ils en parlent un peu différemment. Par exemple, si une mesure est à trois écarts-types de la prédiction théorique, elle est décrite comme un écart de «trois sigma». Fondamentalement, cela signifie que le paramètre d'intérêt est statistiquement différent de la valeur prédite dans le test az avec α = 0,01. Deux sigma équivaut à peu près à α = 0,05 (en fait ce serait 1,96 σ). Si je ne me trompe pas, le niveau d'erreur standard en physique est de 5 sigma, ce qui serait α = 5 * 10 ^ -7
De plus, en neuroscience ou en épidémiologie, il semble de plus en plus courant d'effectuer régulièrement des corrections pour des comparaisons multiples. Le niveau d'erreur pour chaque test individuel peut donc être inférieur à p <.01
Comme l'a noté Gaël Laurans ci-dessus, les analyses statistiques qui se heurtent au problème de la comparaison multiple ont tendance à utiliser des seuils plus conservateurs. Cependant, ils utilisent essentiellement 0,05, mais multiplié par le nombre de tests. Il est évident que cette procédure (correction de Bonferroni) peut rapidement conduire à des valeurs de p incroyablement petites. C'est pourquoi les gens dans le passé (en neuroscience) se sont arrêtés à p <0,001. De nos jours, d'autres méthodes de corrections de comparaison multiples sont utilisées (voir la théorie du champ aléatoire de Markov).