Test t pour non normal quand N> 50?


77

Il y a longtemps, j'ai appris qu'une distribution normale était nécessaire pour utiliser un test T à deux échantillons. Aujourd'hui, une collègue m'a dit qu'elle avait appris que pour N> 50, une distribution normale n'était pas nécessaire. Est-ce vrai?

Si vrai est-ce à cause du théorème de la limite centrale?


3
Question connexe avec une très bonne réponse de Glen_b stats.stackexchange.com/questions/121852/…
Tim

Réponses:


83

Hypothèse de normalité d'un test t

Considérez une population nombreuse à partir de laquelle vous pouvez prélever de nombreux échantillons différents d’une taille donnée. (Dans une étude particulière, vous ne collectez généralement qu'un seul de ces échantillons.)

Le test t suppose que les moyennes des différents échantillons sont normalement distribuées; cela ne suppose pas que la population est normalement distribuée.

Selon le théorème de la limite centrale, la moyenne des échantillons d'une population à variance finie se rapproche d'une distribution normale quelle que soit la distribution de la population. Selon les règles empiriques, les moyennes des échantillons sont normalement distribuées normalement, à condition que la taille de l'échantillon soit d'au moins 20 ou 30. Pour qu'un test t soit valide sur un échantillon de taille inférieure, la répartition de la population devrait être à peu près normale.

Le test t n'est pas valide pour les petits échantillons de distributions non normales, mais il est valable pour les grands échantillons de distributions non normales.

Petits échantillons de distributions non normales

Comme Michael le note ci-dessous, la taille de l'échantillon nécessaire pour la distribution des moyens permettant de s'approcher de la normalité dépend du degré de non-normalité de la population. Pour les distributions approximativement normales, vous n’avez pas besoin d’un échantillon aussi volumineux qu’une distribution très non normale.

Voici quelques simulations que vous pouvez exécuter dans R pour avoir une idée de cela. Premièrement, voici quelques distributions de population.

curve(dnorm,xlim=c(-4,4)) #Normal
curve(dchisq(x,df=1),xlim=c(0,30)) #Chi-square with 1 degree of freedom

Viennent ensuite quelques simulations d’échantillons issus des distributions de population. Dans chacune de ces lignes, "10" est la taille de l'échantillon, "100" le nombre d'échantillons et la fonction qui suit spécifie la distribution de la population. Ils produisent des histogrammes des moyennes des échantillons.

hist(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
hist(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Pour qu'un test t soit valide, ces histogrammes doivent être normaux.

require(car)
qqp(colMeans(sapply(rep(10,100),rnorm)),xlab='Sample mean',main='')
qqp(colMeans(sapply(rep(10,100),rchisq,df=1)),xlab='Sample mean',main='')

Utilité d'un test t

Je dois noter que toutes les connaissances que je viens de transmettre sont quelque peu obsolètes; Maintenant que nous avons des ordinateurs, nous pouvons faire mieux que les tests t. Comme le note Frank, vous souhaiterez probablement utiliser les tests de Wilcoxon partout où on vous a appris à exécuter un test t.


7
Bonne explication (+1). J'ajouterais cependant que la taille de l'échantillon nécessaire à la distribution des moyens d'approximation de la normalité dépend du degré de non-normalité de la population. Pour les grands échantillons, il n'y a aucune raison de préférer un test t à un test de permutations qui ne fait aucune hypothèse sur les distributions.
Michael Lew

2
+1 bien que, à ma connaissance, le test t soit assez résistant pour modérer les écarts par rapport à la normalité. En outre, une discussion connexe intéressante: stats.stackexchange.com/questions/2492/…
nico

4
bonne réponse, même s’il manque un petit détail: la distribution des données doit avoir une variance finie. Le test T est sans espoir pour comparer la différence d'emplacement de deux distributions de Cauchy (ou d'étudiant avec 2 degrés de liberté), non pas parce qu'il est "non robuste", mais parce que pour ces distributions, il existe des informations pertinentes supplémentaires dans l'échantillon au-delà des moyennes et les écarts-types que le test t élimine.
probabilityislogic

2
De plus, le test t donne naturellement des intervalles de confiance pour le paramètre étudié. (vote toujours positif à cause des deux premiers paragraphes qui traitent directement de la question, je suis tout à fait en désaccord avec le troisième)
Erik

7
Le test t exige la normalité de la population. C'est une hypothèse nécessaire pour que la statistique t ait une distribution t-Student. Si vous n'avez pas une population normale, vous ne pouvez pas exprimer la statistique t sous la forme d'une variable normale standard divisée par la racine d'une variable chi carré divisée par ses degrés de liberté. Vous essayez peut-être de dire que si certaines conditions sont vraies, comme pas trop d'asymétrie ou un grand échantillon, le test peut toujours être valable même lorsque la population n'est pas normale.
Toneloy

44

Le théorème de la limite centrale est moins utile qu'on pourrait le penser dans ce contexte. Tout d'abord, comme quelqu'un l'a déjà souligné, on ne sait pas si la taille de l'échantillon actuel est "suffisamment grande". Deuxièmement, le CLT consiste davantage à obtenir l’erreur de type I souhaitée que l’erreur de type II. En d'autres termes, le test t peut être non compétitif sur le plan de la puissance. C'est pourquoi le test de Wilcoxon est si populaire. Si la normalité est respectée, son efficacité est de 95% celle du test t. Si la normalité ne tient pas, elle peut être arbitrairement plus efficace que le test t.


7
(+1) Bienvenue sur le site que je suis content de l'avoir trouvé. Je compte sur votre participation ici.
cardinal

4
(+1) Un bon point à propos du Wilcoxon.
whuber

18

Voir ma réponse précédente à une question sur la robustesse du test t .

En particulier, je recommande de jouer avec l' applet onlinestatsbook .

L'image ci-dessous est basée sur le scénario suivant:

  • l'hypothèse nulle est vraie
  • asymétrie assez grave
  • même distribution dans les deux groupes
  • même variance dans les deux groupes
  • taille de l'échantillon par groupe 5 (c'est-à-dire beaucoup moins de 50 selon votre question)
  • J'ai appuyé sur le bouton 10 000 simulations environ 100 fois pour obtenir plus d'un million de simulations.

La simulation obtenue suggère qu'au lieu d'obtenir 5% d'erreurs de type I, je n'obtenais que 4,5% d'erreurs de type I.

Que vous considériez cela robuste dépend de votre perspective.

entrez la description de l'image ici


4
+1 bons points. La puissance du test t avec des alternatives asymétriques peut toutefois se dégrader gravement (au point où elle est pratiquement nulle, même pour des tailles d'effet énormes).
whuber

6

D'après mon expérience avec le test t à échantillon unique, j'ai constaté que l' inclinaison des distributions est plus importante que le kurtosis, par exemple. Pour les distributions non asymétriques mais à queue grasse (à 5 degrés de liberté, une distribution h de Tukey avec , etc.), j’ai trouvé que 40 échantillons étaient toujours suffisants pour obtenir un taux empirique de type I proche de la valeur nominale. . Lorsque la distribution est très asymétrique, vous aurez peut-être besoin de beaucoup plus d'échantillons.h=0.24999

Par exemple, supposons que vous jouiez à la loterie. Avec une probabilité vous gagnerez 100 000 dollars et avec une probabilité vous perdrez un dollar. Si vous effectuez un test t pour le null indiquant que le rendement moyen est égal à zéro sur la base d'un échantillon de 1 000 tirages de ce processus, je ne pense pas que vous obtiendrez le taux de type I nominal. 1 - pp=1041p

modifier : duh, la capture de @ whuber dans le commentaire, l’exemple que j’ai donné n’avait pas la moyenne zéro, aussi la recherche de la moyenne zéro n’a-t-elle rien à voir avec le taux de type I.

Parce que l'exemple de loterie a souvent un exemple d'écart-type de zéro, le test t s'étouffe. Donc, au lieu de cela, je donne un exemple de code utilisant la distribution Lambert W x gaussienne de Goerg . La distribution que j'utilise ici a un biais d'environ 1355.

#hey look! I'm learning R!
library(LambertW)

Gauss_input = create_LambertW_input("normal", beta=c(0,1))
params = list(delta = c(0), gamma = c(2), alpha = 1)
LW.Gauss = create_LambertW_output(input = Gauss_input, theta = params)
#get the moments of this distribution
moms <- mLambertW(beta=c(0,1),distname=c("normal"),delta = 0,gamma = 2, alpha = 1)

test_ttest <- function(sampsize) {
    samp <- LW.Gauss$rY(params)(n=sampsize)
    tval <- t.test(samp, mu = moms$mean)
    return(tval$p.value)
}

#to replicate randomness
set.seed(1)

pvals <- replicate(1024,test_ttest(50))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(250))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

p    vals <- replicate(1024,test_ttest(1000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

pvals <- replicate(1024,test_ttest(2000))
#how many rejects at the 0.05 level?
print(sum(pvals < 0.05) / length(pvals))

Ce code donne le taux de rejet empirique au niveau nominal de 0,05 pour différentes tailles d'échantillon. Pour l'échantillon de taille 50, le taux empirique est de 0,40 (!); pour une taille d'échantillon de 250, 0,29; pour la taille d'échantillon 1000, 0,21; pour la taille de l'échantillon 2000, 0,18. Il est clair que le test t à un échantillon est asymétrique.


Dans l'exemple, vous parlez de la puissance du test, pas de sa taille. Le null, en passant, semble être , pour lequel la distribution est dégénérée (un atome en un seul point): c'est à peu près aussi loin de la normalité que possible! p=0
whuber

1

Le théorème de la limite centrale établit (dans les conditions requises) que le numérateur de la statistique t est asymptotiquement normal. La statistique t a également un dénominateur. Pour avoir une distribution t, il faudrait que le dénominateur soit indépendant et racine carrée d'un chi carré sur sa df.

Et nous savons que ce ne sera pas indépendant (cela caractérise la normale!)

Le théorème de Slutsky combiné au CLT vous donnerait que la statistique t est asymptotiquement normale (mais pas nécessairement à un taux très utile).

Quel théorème établirait que la statistique t est approximativement t-distribuée quand il y a non normalité, et à quelle vitesse elle rentre? (Bien sûr, le t- finira par se rapprocher de la normale également, mais nous supposons que l'approximation d'une autre approximation sera meilleure que la simple approximation normale ...)


Cependant, l'effet sur sa puissance est plus important que la prétendue robustesse au niveau du (pour des échantillons de plus grande taille) . Notez que l'efficacité relative asymptotique du test t par rapport au test de Wilcoxon-Mann-Whitney (par exemple) peut être de 0 t avoir le même pouvoir qu'une alternative évidente).t

Ainsi, alors que le test t finit par avoir une belle distribution nulle d'aspect normal si est suffisamment grand, ses performances sous null ne sont pas vraiment ce qui importe le plus aux gens - elles sont sous l'autre - et Dans ce cas, cela n’est peut-être pas si bon, si vous tenez à rejeter le zéro dans les cas où l’effet n’est pas aussi facile à détecter.n


3
Bien que nous ne sachions pas si la moyenne et la variance de l'échantillon sont indépendantes, nous savons toujours qu'elles ne sont pas corrélées . Cela est dû au fait que la moyenne de l’échantillon est fonction des sommes bivariées , et que la variance de l’échantillon est fonction des différences bivariées (appelées "statistiques U") et nous avons tant que la distribution est "homogène" , qui fait partie de l'énoncé du problème . xi+xjxixjv a r ( x i ) = v a r ( x j )cov(xi+xj,xixj)=var(xi)var(xj)+cov(xi,xj)cov(xj,xi)=0var(xi)=var(xj)
probabilityislogic

1
Malheureusement, la distinction entre non corrélé et indépendant est pertinente si nous voulons nous retrouver avec une distribution t.
Glen_b

0

Oui, le théorème de la limite centrale nous dit que c'est vrai. Tant que vous évitez les traits extrêmement épais, la non-normalité ne pose aucun problème pour les échantillons de taille modérée à grande.

Voici un article de revue utile;

http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546

Le test de Wilcoxon (mentionné par d'autres) peut avoir un pouvoir terrible lorsque l'alternative n'est pas un changement de localisation de la distribution d'origine. En outre, la manière dont il mesure les différences entre les distributions n’est pas transitoire.


Points intéressants sur le Wilcoxon. Cependant, le test t présente des difficultés similaires: il est particulièrement difficile à détecter les changements qui s'accompagnent d'une variance accrue. La question de la transitivité semble être principalement une curiosité dans le contexte actuel; il est difficile de voir en quoi il est pertinent pour le test d'hypothèse d'origine ou son interprétation. (Mais peut-être que l'intransibilité pourrait devenir importante dans un contexte d'ANOVA ou de comparaisons multiples.)
whuber

Le test t de variance inégale (qui est la valeur par défaut dans certains logiciels) ne pose pas le problème de l'hétéroscédasticité.
Invité

En ce qui concerne la transitivité; le fait de rapporter les moyennes d'échantillon, ou les différences de moyennes (ce qui est naturel en utilisant une approche de test t) donne au lecteur quelque chose qu'il peut prendre en compte lorsqu'il échantillonne d'autres populations. La non transitivité du test de Wilcoxon signifie que cette approche n’a pas un tel analogue; utiliser des rangs de données est une approche très limitée.
Invité

1
(1) Le test Satterthwaite-Welch (variance inégale) ne permet pas de surmonter la perte de puissance dont j'ai parlé (bien que cela puisse aider un peu). (2) Je pense que vous faites preuve d'extrême dans l'utilisation de rangs comme "limitée". Dans sa réponse, @Frank Harrell faisait référence à des études montrant comment le test de Wilcoxon maintient une efficacité élevée dans de nombreux contextes: cela montre en quoi l'utilisation des rangs est à la fois efficace et plus flexible, et non plus limitée, par rapport aux tests t.
whuber

(1) Non, mais cela donne le bon taux d'erreur de type I, dans les échantillons de taille modérée à grande (2) Merci, mais je ne suis pas du tout d'accord. L'utilisation de tests t sur Wilcoxon facilite beaucoup la transition entre les tests et l'utilisation d'intervalles de confiance. Si l'on veut seulement faire des tests et ne jamais regarder au-delà des deux groupes dans une étude, Wilcoxon a bien sûr des situations où cela fonctionne bien. Mais souvent, nous ne voulons pas simplement faire des tests et nous voulons aider les utilisateurs à généraliser les résultats à d'autres situations. le test de Wilcoxon n’est donc pas utile.
Invité

0

À propos de l’utilisation du test de Wilcoxon-Mann-Whitney comme solution de rechange, je recommande le document intitulé Le test de Wilcoxon-Man-Whitney à l’étude

En tant que test des moyennes ou des médianes, le test de Wilcoxon – Mann – Whitney (WMW) peut ne pas donner lieu à des écarts graves par rapport au modèle à décalage pur.

Voici la recommandation des auteurs du document:

La transformation de rang peut modifier les moyennes, les écarts-types et les asymétries des deux échantillons différemment. La seule situation dans laquelle il est garanti que la transformation du rang produit un effet bénéfique est lorsque les distributions sont identiques et que la taille des échantillons est identique. Pour les écarts par rapport à ces hypothèses plutôt strictes, les effets de la transformation de rang sur les moments d'échantillonnage sont imprévisibles. Dans l’étude de simulation du papier, le test WMW a été comparé au test Fligner – Policello (FP), au test Brunner – Munzel (BM), au test T à deux échantillons (T), au test Welch U (U), et le test Welch U sur les rangs (RU). Les quatre tests basés sur le classement (WMW, FP, BM et RU) ont donné les mêmes résultats, bien que le test BM ait souvent été un peu meilleur que les autres. Lorsque les tailles d'échantillon étaient égales, les tests paramétriques (T et U) étaient supérieurs aux tests basés sur les rangs sous l'hypothèse nulle de l'égalité des moyennes, mais pas sous l'hypothèse nulle de la médiane égale. Lorsque la taille des échantillons était inégale, les tests BM, RU et U ont donné les meilleurs résultats. Dans plusieurs contextes, de petits changements dans les propriétés de la population ont entraîné de grandes modifications des performances des tests. En résumé, le test de WMW approximatif sur grand échantillon peut être une mauvaise méthode pour comparer les moyennes ou les médianes de deux populations, à moins que les deux distributions aient des formes et des échelles égales. Ce problème semble également s’appliquer à divers degrés au test WMW exact, au test FP, au test BM et au test Welch U sur les grades. Lors de l’utilisation du test WMW, les auteurs recommandent que les propriétés des échantillons classés fassent l’objet d’une étude approfondie pour rechercher les signes d’asymétrie et d’hétérogénéité de la variance.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.