Il s'agit d'une question complémentaire à ce que Frank Harrell a écrit ici :
D'après mon expérience, la taille d'échantillon requise pour que la distribution t soit précise est souvent plus grande que la taille d'échantillon à portée de main. Le test de rang signé de Wilcoxon est extrêmement efficace comme vous l'avez dit, et il est robuste, donc je le préfère presque toujours au test t
Si je comprends bien - lorsque nous comparons l'emplacement de deux échantillons inégalés, nous préférerions utiliser le test de somme de rang de Wilcoxon plutôt que le test t non apparié, si nos tailles d'échantillon sont petites.
Existe-t-il une situation théorique où nous préférerions le test de somme de rang de Wilcoxon au test t non apparié, même si la taille des échantillons de nos deux groupes est relativement grande?
Ma motivation pour cette question découle de l'observation que pour un test t à échantillon unique, son utilisation pour un échantillon pas si petit d'une distribution asymétrique produira une erreur de type I erronée:
n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error