Quand utiliser le test de somme de rang de Wilcoxon au lieu du test t non apparié?

Il s'agit d'une question complémentaire à ce que Frank Harrell a écrit ici :

D'après mon expérience, la taille d'échantillon requise pour que la distribution t soit précise est souvent plus grande que la taille d'échantillon à portée de main. Le test de rang signé de Wilcoxon est extrêmement efficace comme vous l'avez dit, et il est robuste, donc je le préfère presque toujours au test t

Si je comprends bien - lorsque nous comparons l'emplacement de deux échantillons inégalés, nous préférerions utiliser le test de somme de rang de Wilcoxon plutôt que le test t non apparié, si nos tailles d'échantillon sont petites.

Existe-t-il une situation théorique où nous préférerions le test de somme de rang de Wilcoxon au test t non apparié, même si la taille des échantillons de nos deux groupes est relativement grande?

Ma motivation pour cette question découle de l'observation que pour un test t à échantillon unique, son utilisation pour un échantillon pas si petit d'une distribution asymétrique produira une erreur de type I erronée:

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error

t-test wilcoxon-mann-whitney

— Tal Galili
source

Pour moi, 0,0572 me semble assez proche de 0,05.

— mark999

Salut Mark - lorsqu'il est effectué sous 100 000 répétitions de l'hypothèse nulle, nous ne nous attendons pas à obtenir ce niveau de différence de 0,05. Généralement, nous nous attendons à une différence de plus moins quelque chose comme deux fois sqrt (0,05 * 0,95 / 100000) de 0,05

— Tal Galili

Je suis d'accord que c'est incorrect. Je voulais juste dire qu'il semble assez proche pour des raisons pratiques.

— mark999

Une question connexe: comment choisir entre le test t ou le test non paramétrique, par exemple Wilcoxon dans de petits échantillons , qui prend en compte les tests appariés et non appariés, ainsi que les alternatives à Wilcoxon telles que Brunner-Munzel. Il y a aussi une excellente réponse de Frank Harrell qui explique pourquoi il se sent justifié dans son approche plus en détail que l'extrait ci-dessus (par exemple l'importance de l'invariance des rangs sous transformation monotone).

— Silverfish

@TalGalili: pourquoi ne vous attendriez-vous pas à obtenir ce niveau de différence, étant donné que vous faites un test t et que l'hypothèse de normalité est violée (je vois que votre échantillon est distribué de façon exponentielle)? Je demande d'un point de vue novice, ici. J'essaie simplement de comprendre ce que nous attendons, en faisant un test t à un échantillon lorsque l'hypothèse de normalité est violée. Pourquoi l'erreur moyenne de type I devrait-elle être inférieure à 5%, ou supérieure à 5%, ou quoi que ce soit? D'après ce que je vois, ce que nous testons est et la distribution est normale.

H_{0} : μ = 50

$H_0: \mu=50$

— Erosennin

Réponses:

Oui il y a. Par exemple, tout échantillonnage à partir de distributions avec une variance infinie anéantira le test t, mais pas le Wilcoxon. En me référant aux méthodes statistiques non paramétriques (Hollander et Wolfe), je vois que l'efficacité relative asymptotique (ARE) du Wilcoxon par rapport au test t est de 1,0 pour la distribution uniforme, 1,097 (c'est-à-dire que Wilcoxon est meilleur) pour la logistique, 1,5 pour le double exponentiel (Laplace) et 3.0 pour l'exponentiel.

Hodges et Lehmann ont montré que l'ARE minimum du Wilcoxon par rapport à tout autre test est de 0,864, vous ne pouvez donc jamais perdre plus d'environ 14% d'efficacité en l'utilisant par rapport à autre chose. (Bien sûr, c'est un résultat asymptotique.) Par conséquent, l'utilisation par Frank Harrell du Wilcoxon par défaut devrait probablement être adoptée par presque tout le monde, y compris moi-même.

Edit: En réponse à la question de suivi dans les commentaires, pour ceux qui préfèrent les intervalles de confiance, l' estimateur de Hodges-Lehmann est l'estimateur qui "correspond" au test de Wilcoxon, et des intervalles de confiance peuvent être construits autour de cela.

— jbowman
source

Existe-t-il un moyen facile d'obtenir un intervalle de confiance si le test de Wilcoxon est utilisé? Cela semble encourager les gens à mettre trop l'accent sur la valeur de p, encore plus qu'avec une méthode paramétrique.

— mark999

Oui, l'estimateur de Hodges-Lehmann est l'estimateur pertinent, et j'ai édité le corps de la réponse afin que les futurs lecteurs n'aient pas à parcourir les commentaires.

— jbowman

Merci jbowman. Je ne connais pas l'estimateur de Hodges-Lehmann, mais je verrai ce que je peux en savoir.

— mark999

biostat.mc.vanderbilt.edu/WilcoxonSoftware montre comment utiliser R pour obtenir l'estimation de Hodges-Lehmann et son intervalle de confiance.

— Frank Harrell

(+1) d'un traditionaliste anti-rang lourd. Cependant, un défi pour les tests de classement est que l'hypothèse est vague. Ce n'est généralement pas la même hypothèse que le test t. Le test t teste toujours une différence moyenne, Wilcoxon teste une différence de rang moyen pondéré. Certes, si la différence de rang moyen est statistiquement significative, nous savons que les distributions doivent différer, même si leurs moyennes sont les mêmes. Aucun des deux tests n'est alimenté pour détecter les différences de distribution dans tous les cas. Je ne dis cela que parce que je suis en faveur de l'interprétabilité. (1/2)

— AdamO

Permettez-moi de vous ramener à notre discussion en commentant cette question. Le test de somme de Wilcoxon est équivalent au test de Mann-Whitney U (et son extension directe pour plus de deux échantillons est appelée test de Kruskal-Wallis). Vous pouvez voir sur Wikipedia ainsi que dans ce texte que Mann-Whitney (ou Kruskal-Wallis) ne compare généralement pas des moyennes ou des médianes. Il compare la prévalence globale des valeurs: lequel des échantillons est "stochastiquement supérieur". Le test est sans distribution. Le test T compare les moyennes. Il suppose une distribution normale. Ainsi, les tests s'engagent dans différentes hypothèses. Dans la plupart des cas, nous ne prévoyons pas de comparer spécifiquement les moyennes, nous voulons plutôt savoir quel échantillon est supérieur en termes de valeurs, et cela fait de Mann-Whitney le test par défaut pour nous. D'un autre côté, lorsque les deux distributions sont symétriques, la tâche de tester si un échantillon est "plus grand" que l'autre dégénère en une tâche de comparaison des deux moyennes, puis, si les distributions sont normales avec des variances égales, le test t devient quelque peu plus puissant.

— ttnphns
source

+1 pour lier votre réponse à la signification des hypothèses testées.

— Josh Hemann

Par "lequel des échantillons est" stochastiquement plus grand "", voulez-vous dire "lequel des échantillons prend généralement des valeurs plus élevées par rapport à l'autre"? Sinon, que voulez-vous dire? Pourriez-vous nous en dire un peu plus à ce sujet, s'il vous plaît?

— Erdogan CEVHER

@Erdogan, oui, nous pouvons dire comme vous l'avez dit. La formulation stricte est la suivante: dans une paire d'objets choisis au hasard, un de chaque échantillon, l'objet de l'échantillon "stochastiquement plus dominant" sera plus élevé (par la valeur) que l'objet de l'autre échantillon avec une probabilité> 0,5.

— ttnphns