Comment tester l'hypothèse d'aucune différence de groupe?


39

Imaginez que votre étude porte sur une variable dépendante numérique (par exemple, les scores du test d'intelligence) et que vous avez l'hypothèse qu'il n'y a pas de différences entre les groupes.

Question:

  • Quel est un bon moyen de tester s'il n'y a pas de différences de groupe?
  • Comment détermineriez-vous la taille de l'échantillon nécessaire pour tester de manière adéquate l'absence de différences entre les groupes?

Pensées initiales:

  • Il ne suffirait pas de faire un test t standard, car le fait de ne pas rejeter l'hypothèse nulle ne signifie pas que le paramètre d'intérêt est égal ou proche de zéro. c'est particulièrement le cas pour les petits échantillons.
  • Je pourrais regarder l'intervalle de confiance à 95% et vérifier que toutes les valeurs sont dans une plage suffisamment petite; peut-être plus ou moins 0,3 écart-type.

qu'entendez-vous par "cela suppose que l'hypothèse nulle soit vraie"?
robin girard

Si vous voulez pouvoir contrôler la probabilité de déclarer à tort qu'il y a une différence, vous devez séparer les deux hypothèses (ai-je déjà mentionné la citation que j'aime bien: stats.stackexchange.com/questions/726/… ;))
robin girard le

@Robin la valeur p d'un test de signification d'une hypothèse nulle est la probabilité de voir des données aussi extrêmes que celles observées, en supposant que l'hypothèse nulle soit vraie; mais je pourrais peut-être mieux formuler la déclaration ci-dessus.
Jeromy Anglim

@Robin J'ai modifié la question pour essayer de clarifier mon propos
Jeromy Anglim

Réponses:


20

Je pense que vous vous interrogez sur le test d’équivalence . En gros, vous devez décider de l'ampleur d'une différence acceptable pour que vous puissiez tout de même conclure que les deux groupes sont effectivement équivalents. Cette décision définit les limites de l'intervalle de confiance de 95% (ou autre) et les calculs de la taille de l'échantillon sont effectués sur cette base.

Il y a un livre entier sur le sujet.

Un "équivalent" clinique très commun de tests d'équivalence est un test / essai de non-infériorité . Dans ce cas, vous "préférez" un groupe (un traitement établi) et concevez votre test pour montrer que le nouveau traitement n'est pas inférieur au traitement établi à un certain niveau de preuve statistique.

Je pense que je dois créditer Harvey Motulsky pour le site GraphPad.com (sous "Bibliothèque" ).


16

Outre la possibilité déjà évoquée d'une sorte de test d'équivalence , dont la plupart, à ma connaissance, sont pour la plupart inspirés de la bonne vieille tradition fréquentiste, il existe la possibilité d'effectuer des tests qui fournissent réellement une quantification des preuves dans faveur d'un null-hyptheses, à savoir des tests bayésiens .

Une implémentation d'un test t bayésien peut être trouvée ici: Wetzels, R., Raaijmakers, JGW, Jakab, E., & Wagenmakers, E.-J. (2009). Comment quantifier le support pour et contre l'hypothèse nulle: Une implémentation WinBUGS flexible d'un test t bayésien par défaut. Psychonomic Bulletin & Review, 16, 752-760.

Il y a aussi un tutoriel sur la façon de faire tout ça en R:

http://www.ruudwetzels.com/index.php?src=SDtest


Une alternative (peut-être plus moderne) d'un test t bayésien est fournie (avec code) dans cet article de Kruschke:

Kruschke, JK (2013). L'estimation bayésienne remplace le test t . Journal of Experimental Psychology: Général , 142 (2), 573–603. doi: 10.1037 / a0029146


Tous les accessoires pour cette réponse (avant l’ajout de Kruschke) devraient aller à mon collègue David Kellen. J'ai volé sa réponse à cette question .


Je me demandais si quelqu'un proposerait une approche bayésienne. Excellent. Merci.
Jeromy Anglim

1
Il pourrait être intéressant de mettre à jour cette réponse pour inclure une référence au paquet génial BayesFactor pour R.
crsh le


8

Il y a des tonnes de papiers et même des livres sur ce sujet.
Michael R. Chernick,

7

J'ai récemment pensé à une autre méthode de "test d'équivalence" basée sur une distance entre les deux distributions plutôt que entre leurs moyennes.

Certaines méthodes fournissent des intervalles de confiance pour le chevauchement de deux distributions gaussiennes:entrez la description de l'image ici

O(P1,P2)P1P2

1O(P1,P2)=TV(P1,P2)
TV(P1,P2)=supA|P1(A)P2(A)|P1P2

O(P1,P2)>0.9P1P20.110%

μ1μ2

|μ1μ2|TV(P1,P2)

|μ1μ2|σ


Avez-vous des ressources montrant que les chevauchements sont utilisés dans certains problèmes réels? Cela semble incroyablement prometteur, mais je ne vois pas comment on pourrait l’appliquer à un problème réel (où vos conclusions sont potentiellement éloignées de plusieurs étapes de "cette distribution est assez similaire à celle de X", ce qui rend un peu difficile de voir comment cela se produit. 10% TV correspond à la taille de l'impact sur les inférences).
Stumpy Joe Pete

1
@StumpyJoePete J'ai écrit quelque chose dans le même esprit sur mon blog: stla.github.io/stlapblog/posts/…
Stéphane Laurent

5

En sciences médicales, il est préférable d’utiliser une approche par intervalle de confiance plutôt que deux tests unilatéraux (tost). Je recommande également de représenter graphiquement les estimations ponctuelles, les IC et les marges d'équivalence déterminées a priori afin de clarifier les choses.

Votre question serait probablement traitée par une telle approche.

Les directives CONSORT pour les études de non-infériorité / équivalence sont très utiles à cet égard.

Voir Piaggio G, DR Elbourne, DG Altman, SJ Pocock, SJ Evans et Groupe CONSORT. Déclaration d'essais randomisés sur la non infériorité et l'équivalence: une extension de la déclaration de CONSORT. JAMA. 8 mars 2006, 295 (10): 1152-60. (Lien vers le texte intégral.)


1
Je ne dirais pas nécessairement que les intervalles de confiance sont préférés. En fait, les intervalles de confiance correspondent à des tests d'hypothèses. TOST peut être obtenu en examinant les intervalles de confiance obtenus en croisant les intervalles de confiance bilatéraux correspondant aux deux tests t unilatéraux utilisés dans la procédure.
Michael R. Chernick,

4

Oui. Ceci est un test d'équivalence. Fondamentalement, vous inversez les hypothèses nulle et alternative et basez la taille de l'échantillon sur le pouvoir de montrer que la différence des moyennes se situe dans la fenêtre d'équivalence. Blackwelder l'a appelé "Prouver l'hypothèse nulle." Cela se fait couramment dans des essais cliniques pharmaceutiques où l’équivalence d’un médicament générique par rapport au médicament commercialisé est testée ou un médicament approuvé est comparé à une nouvelle formulation (souvent appelée bioéquivalence). La version unilatérale est appelée non infériorité. Parfois, un médicament peut être approuvé en montrant simplement que le nouveau médicament n’est pas inférieur au concurrent commercial. Shao et Pigeot ont développé une approche bootstrap cohérente de la bioéquivalence en utilisant des conceptions croisées.


0

Différences Bootstrap (par exemple, la différence entre les moyennes) entre les 2 groupes d'échantillons et vérifier la signification statistique. Une description plus détaillée de cette approche, bien que dans un contexte différent, peut être trouvée ici http://www.automated-trading-system.com/a-different-application-of-the-bootstrap/


1
Vous confondez la fausseté d' accepter l'hypothèse nulle de l'absence de différence et la preuve que deux quantités sont équivalentes .
Alexis
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.