Comparaisons multiples avec de nombreux groupes

Je voudrais déterminer si l'utilisation d'un test de comparaisons multiples serait appropriée pour mes données. J'ai utilisé le test de Kruskal-Wallis pour déterminer s'il y avait des différences d'inhibition moyenne entre groupes différents. L'analyse a révélé qu'il y avait des différences significatives et maintenant j'aimerais utiliser une procédure de comparaison multiple (peut-être celle de Dunn car j'ai des tailles d'échantillon inégales) pour voir quels groupes étaient différents des autres. $17$

Je me demandais puisque j'ai plusieurs groupes ( ). Est-ce que cela ferait qu'un test de comparaisons multiples aurait très peu de puissance ou ne serait pas approprié pour effectuer pour cet ensemble de données? $k = 17$

— Mat
source

+1 à @Alexis, mais vous devez vraiment vous demander si vous devez réellement tester toutes les combinaisons par paires de 17 groupes. Qu'allez-vous faire avec 136 comparaisons ?? Les énumérer tous dans un document?

— amoeba

@amoeba soulève un excellent point sur la communication. Je pense que 17 groupes sont quelque part près de la limite des résultats communicables. Cela dit, jetez un œil à mon logiciel cité: il a deux formats de sortie qui organisent le dépôt de résultats précis comme ceux-ci.

— Alexis

Bonne question! Éliminons d'abord une certaine confusion potentielle. Le test de Dunn (Dunn, 1964) est précisément cela: une statistique de test qui est un analogue non paramétrique du test t par paire que l' on conduirait post hoc à une ANOVA. Il est similaire au test de somme de rang de Mann-Whitney-Wilcoxon, sauf que (1) il utilise une mesure de la variance groupée qui est impliquée par l'hypothèse nulle du test de Kruskal-Wallis, et (2) il utilise les mêmes classements de ses données originales utilisées par le test de Kruskal-Wallis.

Dunn a également développé ce que l'on appelle communément l' ajustement de Bonferroni pour les comparaisons multiples (Dunn, 1961), qui est l'une des nombreuses méthodes de contrôle du taux d'erreur familial (FWER) qui ont été développées depuis, et implique simplement de diviser $\alpha$ (tests unilatéraux) ou $\alpha/2$ (tests bilatéraux) par le nombre de comparaisons par paires que l'on fait. Le nombre maximum de comparaisons par paires que l'on peut faire avec $k$ les variables est $k(k-1)/2$ , c'est donc 17 * 16/2 = 136 comparaisons par paires possibles, ce qui implique que vous pourriez être en mesure de rejeter une hypothèse nulle pour un seul test si $p \le \alpha/2/136$ . Votre souci de puissance est donc justifié pour cette méthode.

Il existe cependant d'autres méthodes pour contrôler le FWER avec plus de puissance statistique. Par exemple, les méthodes Holm et Holm-Sidak pas à pas (Holm, 1979) n'alimentent pas l'hémorragie comme le fait la méthode Bonferroni. Là aussi, vous pourriez chercher à contrôler le taux de fausses découvertes (FDR) à la place, et ces méthodes - Benjamini-Hochberg (1995) et Benjamini-Yekutieli (2001) - donnent généralement plus de puissance statistique en supposant que certaines hypothèses nulles sont fausses (c'est-à-dire en construisant l'idée que tous les rejets ne sont pas de faux rejets en critères de rejet modifiés séquentiellement). Ces ajustements et d'autres comparaisons multiples sont implémentés spécifiquement pour le test de Dunn dans Stata dans le package dunntest (dans le type Statanet describe dunntest, from(https://alexisdinno.com/stata)) et dans R dans le package dunn.test .

De plus, il existe une alternative au test de Dunn (qui est basé sur une statistique approximative du test z ): le Conover-Iman (exclusivement) post hoc à un test de Kruskal-Wallis rejeté (qui est basé sur une distribution t , et qui est plus puissant que le test de Dunn; Conover & Iman, 1979; Convover, 1999). On peut également utiliser les méthodes pour contrôler le FWER ou le FDR avec les tests Conover-Iman, qui sont implémentés pour Stata dans le package conovertest (dans le type Stata net describe conovertest, from(https://alexisdinno.com/stata)), et pour R dans le package conover.test .

Références

Benjamini, Y. et Hochberg, Y. (1995). Contrôler le taux de fausses découvertes: une approche pratique et puissante des tests multiples . Journal de la Royal Statistical Society . Série B (méthodologique), 57 (1): 289–300.

Benjamini, Y. et Yekutieli, D. (2001). Le contrôle du taux de fausses découvertes dans plusieurs tests sous dépendance . Annals of Statistics , 29 (4): 1165–1188.

Conover, WJ (1999). Statistiques pratiques non paramétriques . Wiley, Hoboken, NJ, 3e édition.

Conover, WJ et Iman, RL (1979). Sur les procédures de comparaisons multiples . Rapport technique LA-7677-MS, Los Alamos Scientific Laboratory.

Dunn, JO (1961). Comparaisons multiples entre les moyennes . Journal de l'American Statistical Association , 56 (293): 52–64.

Dunn, JO (1964). Comparaisons multiples utilisant des sommes de classement . Technometrics , 6 (3): 241–252.

Holm, S. (1979). Une simple procédure de test multiple à rejet séquentiel . Scandinavian Journal of Statistics , 6 (65-70): 1979.

— Alexis
source