Acceptation de l'hypothèse nulle


15

Il s'agit d'une question de discussion sur l'intersection de la statistique et d'autres sciences. Je suis souvent confronté au même problème: les chercheurs dans mon domaine ont tendance à dire qu'il n'y a pas d'effet lorsque la valeur p n'est pas inférieure au niveau de signification. Au début, j'ai souvent répondu que ce n'est pas ainsi que fonctionne le test d'hypothèse. Étant donné la fréquence à laquelle cette question se pose, j'aimerais discuter de cette question avec des statisticiens plus expérimentés.

Prenons un article récent dans une revue scientifique du «meilleur groupe d'édition» Nature Communications Biology (il existe plusieurs exemples, mais concentrons-nous sur un)

Les chercheurs interprètent un résultat non statistiquement significatif de la manière suivante:

Ainsi, la restriction calorique chronique modérée peut prolonger la durée de vie et améliorer la santé d'un primate, mais elle affecte l'intégrité de la matière grise du cerveau sans affecter les performances cognitives .

Preuve:

Cependant, les performances dans la tâche du labyrinthe de Barnes n'étaient pas différentes entre les animaux témoins et les animaux hypocaloriques (LME: F = 0,05, p = 0,82; Fig. 2a). De même, la tâche d'alternance spontanée n'a révélé aucune différence entre les animaux témoins et les animaux hypocaloriques (LME: F = 1,63, p = 0,22; figure 2b).

Les auteurs suggèrent également l'explication de l'absence de l'effet - mais le point clé n'est pas l'explication mais la revendication elle-même. Les tracés fournis semblent pour moi "sensiblement différents" (figure 2).

De plus, les auteurs ignorent les connaissances antérieures:

des effets délétères de la restriction calorique sur les performances cognitives ont été signalés chez le rat et pour les fonctions cérébrales et émotionnelles chez l'homme

Je peux comprendre la même affirmation pour les tailles d'échantillon énormes (pas d'effet = pas d'effet pratiquement significatif là-bas), mais dans des situations particulières, des tests complexes ont été utilisés et il n'est pas évident pour moi comment effectuer des calculs de puissance.

Des questions:

  1. Ai-je oublié des détails qui rendent leurs conclusions valables?

  2. Compte tenu de la nécessité de rapporter des résultats négatifs en science, comment prouver que ce n'est pas "l'absence de résultat" (que nous avons avec ), mais "un résultat négatif (par exemple, il n'y a pas de différence entre les groupes)" en utilisant statistiques? Je comprends que pour des tailles d'échantillon énormes, même de petits écarts par rapport au rejet de cause nulle, mais supposons que nous avons des données idéales et que nous devons encore prouver que la valeur nulle est pratiquement vraie.p>α

  3. Les statisticiens devraient-ils toujours insister sur des conclusions mathématiquement correctes telles que "ayant ce pouvoir, nous n'avons pas pu détecter d'effet de taille significative"? Les chercheurs d'autres domaines détestent fortement ces formulations de résultats négatifs.

Je serais heureux d'entendre toute réflexion sur le problème et j'ai lu et compris les questions connexes sur ce site Web. Il y a une réponse claire aux questions 2) -3) du point de vue statistique, mais j'aimerais comprendre comment répondre à ces questions en cas de dialogue interdisciplinaire.

UPD: Je pense qu'un bon exemple de résultat négatif est la 1ère étape des essais médicaux, la sécurité. Quand les scientifiques peuvent décider que le médicament est sûr? Je suppose qu'ils comparent deux groupes et font des statistiques sur ces données. Existe-t-il un moyen de dire que ce médicament est sûr? Cochrane utilise avec précision "aucun effet secondaire n'a été trouvé", mais les médecins disent que ce médicament est sûr. Lorsque l'équilibre entre l'exactitude et la simplicité de la description est atteint et que l'on peut dire "il n'y a aucune conséquence pour la santé"?


2
Vous appelez les résultats qui ne sont pas statistiquement significatifs une étude «négative». C'est un langage défenestrateur. Je l'ai révisé pour l'appeler tel qu'il est: non significatif statistiquement, par exemple . Si je me trompe, dites-moi comment. Sinon, c'est un langage utile pour vous et vos collaborateurs pour décrire une étude. p > α signifie seulement que p > α . Si n = 500 , 000 qui peut être une très « positive » trouver à certains égards; il s'agit peut-être de la première étude épidémiologique à grande échelle à inspecter la relation entre une exposition à des produits chimiques et la santé humaine, qui conclut qu'elle est en fait sans danger. p>αp>αp>αn=500,000
AdamO

4
Note latérale: Je ne suggérerais jamais d' utiliser la nature comme guide pour utiliser correctement les statistiques.
Cliff AB le

1
@AdamO J'ai un exemple de deux articles publiés plus ou moins en même temps, dans un article les auteurs ont affirmé un résultat fortement négatif (c'était leur principale conclusion), dans la deuxième étude, plus puissante, ils ont trouvé et effet. Mais, si le premier auteur écrivait "ayant un pouvoir de 80% avec une taille d'effet de 1, nous n'avons pas pu trouver un effet significatif" - il ne serait pas publié même dans le journal des résultats négatifs.
Demidov allemand

2
mais les non-statisticiens me demandent "comment prouver des résultats négatifs?" - et je ne sais pas comment répondre. Qu'en est-il des hypothèses souvent utilisées dans les essais d'équivalence ? Cela inclut un terme supplémentaire comme «marge d'équivalence» et peut prendre en compte la différence moyenne.
Penguin_Knight

2
C'est une erreur courante que Nature Publishing Group exploite, mais la différence de prestige entre les revues est énorme. Cela dit, bien sûr, les articles dans Nature elle-même peuvent également avoir des statistiques bâclées.
amibe dit Réintégrer Monica le

Réponses:


7

Je pense qu'il est parfois approprié d'interpréter des résultats non statistiquement significatifs dans l'esprit "d'accepter l'hypothèse nulle". En fait, j'ai vu des études statistiquement significatives interprétées de cette façon; l'étude était trop précise et les résultats concordaient avec une gamme étroite d'effets non nuls mais cliniquement non significatifs. Voici une critique quelque peu torride d'une étude (ou d'ailleurs de sa presse) sur la relation entre la consommation de chocolat / vin rouge et son effet "salubre" sur le diabète. Les courbes de probabilité des distributions de résistance à l'insuline par apport élevé / faible sont hystériques.

La possibilité d'interpréter les résultats comme «confirmant H_0» dépend d'un grand nombre de facteurs: la validité de l'étude, la puissance, l'incertitude de l'estimation et les preuves antérieures. La déclaration de l'intervalle de confiance (IC) au lieu de la valeur p est peut-être la contribution la plus utile que vous puissiez apporter en tant que statisticien. Je rappelle aux chercheurs et aux autres statisticiens que les statistiques ne prennent pas de décisions, les gens le font; omettre les valeurs p encourage en fait une discussion plus réfléchie des résultats.

La largeur de l'IC décrit une gamme d'effets qui peuvent ou non inclure le zéro, et peuvent ou non inclure des valeurs très importantes sur le plan clinique comme le potentiel de sauvetage. Cependant, un IC étroit confirme un type d'effet; soit le dernier type qui est "significatif" au sens propre, soit le premier qui peut être le null ou quelque chose de très proche du null.

Ce qui est peut-être nécessaire, c'est un sens plus large de ce que sont les "résultats nuls" (et les effets nuls). Ce que je trouve décevant dans la collaboration de recherche, c'est quand les enquêteurs ne peuvent pas a priori préciser la gamme d'effets qu'ils visent: si une intervention vise à abaisser la tension artérielle, combien de mmHg? Si un médicament est destiné à guérir le cancer, combien de mois de survie le patient aura-t-il? Une personne passionnée par la recherche et «branchée» à son domaine et à la science peut raconter les faits les plus étonnants sur les recherches antérieures et ce qui a été fait.

Dans votre exemple, je ne peux m'empêcher de remarquer que la valeur de p de 0,82 est probablement très proche de la valeur nulle. De cela, tout ce que je peux dire, c'est que l'IC est centré sur une valeur nulle. Ce que je ne sais pas, c'est si cela englobe des effets cliniquement significatifs. Si l'IC est très étroit, l'interprétation qu'ils donnent est, à mon avis, correcte mais les données ne le soutiennent pas: ce serait une modification mineure. En revanche, la deuxième valeur de p de 0,22 est relativement plus proche de son seuil de signification (quel qu'il soit). Les auteurs l'interprètent en conséquence comme "ne donnant aucune preuve de différence", ce qui est cohérent avec une interprétation de type "ne pas rejeter H_0". En ce qui concerne la pertinence de l'article, je peux dire très peu. J'espère que vous parcourez la littérature pour trouver des discussions plus marquantes sur les résultats de l'étude! En ce qui concerne les analyses,


1
AdamO, la statistique F la plus proche de la valeur nulle n'est-elle pas égale à la moyenne de la distribution F pour un degré de liberté donné au numérateur et au dénominateur? Si quoi que ce soit, je pense qu'une statistique F proche de 0 implique une preuve omnibus d'équivalence. En fait, Wellek le justifie précisément dans le Test d'hypothèses statistiques d'équivalence et de non-infériorité de 2010 , section 7.2 Test d'équivalence des k distributions normales, pages 221–225. Fk
Alexis

@Alexis Merci d'avoir souligné les propriétés du test F. Sans connaître les degrés de liberté, il m'est difficile de commenter intelligemment le test. Je devrais peut-être réviser la réponse pour ne mentionner que les valeurs . Quoi qu'il en soit, le point principal de ma réponse est que nous ne pouvons pas tenir les deux hypothèses μ = μ 0 et μ μ 0 avec une intrigue égale: l'une d'entre elles est toujours vraie, donc les tests n'ont aucun sens. Nous devons utiliser des méthodes descriptives, mais elles peuvent être rendues rigoureuses avec un intervalle de confiance. pμ=μ0μμ0
AdamO

Bien sûr! (et +1 si ce n'était pas clair) Mais sérieusement, vous devriez vous familiariser avec les tests d'équivalence: ils sont apparus dans l'épidémiologie clinique et la biostatistique (un héritage honorable pour le domaine!), mais sont d'une importance générale pour l'inférence fréquentiste. :)
Alexis

1
@GermanDemidov Je prends une position ferme sur ces questions: je pense que les analyses compliquées ne devraient pas être considérées si leurs effets ne peuvent pas être interprétés. Ils n'ont une interprétation. Survival Analysis 2nd ed par Hosmer, Lemeshow, May a un chapitre entier (4) consacré à l'interprétation de la sortie du modèle de Cox. La carence des tests, comme Shapiro, est mieux corrigée à l'aide de graphiques (cela empêche souvent le test lui-même). Les statistiques de rééchantillonnage fournissent un moyen puissant pour calculer les IC dans une grande variété de conditions de modélisation, mais elles nécessitent une bonne théorie pour être utilisée correctement.
AdamO

3
Dans le cadre d'inférence rigide, il n'y a rien de tel que «0,82 est proche de la valeur nulle», car la valeur p est un nombre aléatoire, son niveau particulier n'est pas pertinent. La valeur p ne peut pas être grande ou petite en valeur absolue. Son niveau n'a d'importance que par rapport au seuil préétabli, une signification . Vous comparez avec un seuil et, en fonction du résultat de la comparaison, rejetez-le ou ne parvenez pas à rejeter H 0 . αH0
Aksakal

12

Parlant du titre de votre question: nous n'acceptons jamais l'hypothèse nulle, car le test ne fournit que des preuves contre H 0 (c'est-à-dire que les conclusions concernent toujours l'hypothèse alternative, soit vous avez trouvé des preuves pour H A , soit vous n'avez pas trouvé de preuves pour H A ).H0H0HAHA

Cependant, nous pouvons reconnaître qu'il existe différents types d'hypothèses nulles:

  • Vous avez probablement entendu parler d' hypothèses nulles unilatérales de la forme et H 0 : θ θ 0H0:θθ0H0:θθ0

  • Vous avez probablement entendu parler d' hypothèses nulles bilatérales (alias hypothèses nulles bilatérales ) de la forme , ou de manière synonyme H 0 : θ - θ 0H0:θ=θ0 dans le cas d'un échantillon, et H 0 : θ 1 = θ 2 , ou comme synonyme H 0 : θ 1 - θ 2 = 0H0:θθ0=0H0:θ1=θ2H0:θ1θ2=0dans le cas de deux échantillons. Je soupçonne que cette forme spécifique d'hypothèse nulle correspond à votre question. Après Reagle et Vinod, j'appelle des hypothèses nulles de cette forme des hypothèses nulles positivistes , et je l' explique avec la notation . Les hypothèses nulles positivistes fournissent ou ne fournissent pas de preuve de différence ou de preuve d'un effet . Les hypothèses nulles positivistes ont une forme omnibus pour k groupes: H + 0 : θ i = θ j ; pour tout i , j { 1 , 2H0+kH0+:θi=θj; et  i j .i,j{1,2,k};  and ij

  • H0:|θθ0|ΔH0:|θ1θ2|ΔΔH0±Δ|Δ|kH0:|θi=θj|Δ;i,j{1,2,k};  and ij

[tost]H0+H0+, est-ce parce qu'il n'y a pas de véritable effet, ou parce que la taille de votre échantillon était trop petite et que votre test était sous-alimenté? Les tests de pertinence abordent ces problèmes de front.

Il existe plusieurs façons d'effectuer des tests d'équivalence (que l'on combine ou non des tests de différence):

  • Deux tests unilatéraux (TOST) traduisent l'hypothèse négative générale négatrice exprimée ci-dessus en deux hypothèses nulles spécifiques unilatérales:
    • H01:θθ0ΔH01:θ1θ2Δ
    • H02:θθ0ΔH01:θ1θ2Δ
  • Tests d'équivalence uniformément les plus puissants , qui ont tendance à être beaucoup plus sophistiqués sur le plan arithmétique que TOST. Wellek est la référence définitive pour ces derniers.
  • Une approche par intervalle de confiance, je crois d'abord motivée par Schuirman, et affinée par d'autres, comme Tryon.


Références Reagle, DP et Vinod, HD (2003). Inférence pour la théorie négativiste utilisant des régions de rejet calculées numériquement . Statistiques computationnelles et analyse des données , 42 (3): 491–512.

Schuirmann, DA (1987). Une comparaison de la procédure des deux tests unilatéraux et de l'approche de puissance pour évaluer l'équivalence de la biodisponibilité moyenne . Journal of Pharmacokinetics and Biopharmaceutics , 15 (6): 657–680.

Tryon, WW et Lewis, C. (2008). Méthode par intervalle de confiance inférentiel pour établir l'équivalence statistique qui corrige le facteur de réduction de Tryon (2001) . Psychological Methods , 13 (3): 272-277.

Tryon, WW et Lewis, C. (2009). Évaluation de proportions indépendantes pour la différence statistique, l'équivalence, l'indétermination et la différence triviale en utilisant des intervalles de confiance inférentiels . Journal of Educational and Behavioral Statistics , 34 (2): 171–189.

Wellek, S. (2010). Test d'hypothèses statistiques d'équivalence et de non-infériorité . Chapman and Hall / CRC Press, deuxième édition.


1
Quiconque m'a déçu devrait intensifier ses commentaires sur la raison: il devrait être clair que je fournis des réponses détaillées et que je suis sensible aux commentaires.
Alexis

9

Vous faites référence à la pratique d'inférence standard enseignée dans les cours de statistique:

  1. H0,Ha
  2. α
  3. α
  4. H0HaH0

C'est très bien, et c'est utilisé dans la pratique. J'oserais même deviner que cette procédure pourrait être obligatoire dans certaines industries réglementées telles que les produits pharmaceutiques.

Cependant, ce n'est pas la seule façon dont les statistiques et l'inférence s'appliquent à la recherche et à la pratique. Par exemple, jetez un œil à cet article : "Observation d'une nouvelle particule dans la recherche du boson de Higgs modèle standard avec le détecteur ATLAS au LHC". Le document a été le premier à présenter les preuves de l'existence du boson de Higgs, dans ce qu'on appelle l'expérience ATLAS. C'était aussi l'un de ces articles où la liste des auteurs est aussi longue que son contenu réel :)

  • H0HaH0
  • ασ
  • α
  • ils présentent des intervalles de confiance aux niveaux de confiance habituels tels que 95%

Voici comment la conclusion est formulée: "Ces résultats fournissent des preuves concluantes de la découverte d'une nouvelle particule de masse 126,0 ± 0,4 (stat) ± 0,4 (sys) GeV." Les mots "stat" se réfèrent aux statistiques et "sys" aux incertitudes systématiques.

Donc, comme vous le voyez, tout le monde ne suit pas la procédure en quatre étapes que j'ai décrite au début de cette réponse. Ici, les chercheurs montrent la valeur de p sans pré-établir le seuil, contrairement à ce qui est enseigné dans les cours de statistique. Deuxièmement, ils ne font pas de danse "rejeter / ne pas rejeter", du moins formellement. Ils vont droit au but et disent "voici la valeur de p, et c'est pourquoi nous disons que nous avons trouvé une nouvelle particule avec une masse de 126 GeV."

Note importante

Les auteurs de l'article de Higgs n'ont pas encore déclaré le boson de Higgs. Ils ont seulement affirmé que la nouvelle particule a été trouvée et que certaines de ses propriétés telles qu'une masse sont cohérentes avec le boson de Higgs.

Il a fallu quelques années pour rassembler des preuves supplémentaires avant d'établir qu'il s'agit bien du boson de Higgs. Voir cet article de blog avec une discussion précoce des résultats. Les physiciens ont ensuite vérifié différentes propriétés telles que le spin nul. Et tandis que les preuves ont été recueillies à un moment donné, le CERN a déclaré que la particule était le boson de Higgs.

Pourquoi est-ce important? Parce qu'il est impossible de banaliser le processus de découverte scientifique à une procédure d'inférence statistique rigide. L'inférence statistique n'est qu'un des outils utilisés.

Lorsque le CERN cherchait cette particule, l'accent était mis sur sa première découverte. C'était le but ultime. Le physicien avait une idée où regarder. Une fois qu'ils ont trouvé un candidat, ils se sont efforcés de prouver que c'était celui-là. Finalement, la totalité des preuves, pas une seule expérience avec valeur p et signification, a convaincu tout le monde que nous avons trouvé la particule. Inclure ici toutes les connaissances antérieures et le modèle standard . Ce n'est pas seulement une inférence statistique, la méthode scientifique est plus large que cela.


wow, votre réponse est super! c'est un très bon exemple. J'espère que dans 10 ans au maximum, les scientifiques de la vie viendront également à ce style de rapport!
Demidov allemand

5

Il existe des façons d'aborder cela sans se fier aux calculs de puissance (voir Wellek, 2010). En particulier, vous pouvez également tester si vous rejetez la valeur nulle que l'effet est d'une ampleur significative a priori .

Daniël Lakens préconise dans cette situation des tests d'équivalence. Lakens en particulier utilise " TOST " (deux tests unilatéraux) pour les comparaisons moyennes, mais il existe d'autres moyens pour arriver à la même idée.

Dans TOST, vous testez une valeur nulle composée: l'hypothèse nulle unilatérale que votre effet est plus négatif que la plus petite différence d'intérêt négative et la valeur nulle que votre effet est plus positif que la plus petite différence d'intérêt positive. Si vous rejetez les deux, vous pouvez prétendre qu'il n'y a pas de différence significative. Notez que cela peut se produire même si l'effet est significativement différent de zéro, mais en aucun cas cela ne nécessite l'approbation du null.

Lakens, D. (2017). Tests d'équivalence: un guide pratique pour les tests t , les corrélations et les méta-analyses . Psychologie sociale et science de la personnalité , 8 (4), 355-362.

Wellek, S. (2010). Test d'hypothèses statistiques d'équivalence et de non-infériorité . Chapman and Hall / CRC Press, deuxième édition.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.