Comment tester les différences entre deux moyennes de groupe lorsque les données ne sont pas normalement distribuées?

19

Je vais éliminer tous les détails biologiques et les expériences et citer juste le problème et ce que j'ai fait statistiquement. Je voudrais savoir si c'est son droit, et sinon, comment procéder. Si les données (ou mon explication) ne sont pas assez claires, je vais essayer de mieux expliquer en éditant.

Supposons que j'ai deux groupes / observations, X et Y, avec une taille et . Je voudrais savoir si les moyennes de ces deux observations sont égales. Ma première question est: $N_x=215$ $N_y=40$

Si les hypothèses sont satisfaites, est-il pertinent d'utiliser ici un test t paramétrique à deux échantillons? Je pose cette question car d'après ma compréhension, c'est généralement appliqué lorsque la taille est petite?
J'ai tracé des histogrammes à la fois de X et de Y et ils n'étaient pas normalement distribués, l'une des hypothèses d'un test t à deux échantillons. Ma confusion est que, je les considère comme deux populations et c'est pourquoi j'ai vérifié la distribution normale. Mais alors je suis sur le point d'effectuer un test t à deux échantillons ... Est-ce vrai?
D'après le théorème de la limite centrale, je comprends que si vous effectuez l'échantillonnage (avec / sans répétition selon la taille de votre population) plusieurs fois et calculez la moyenne des échantillons à chaque fois, alors il sera distribué normalement normalement. Et, la moyenne de ces variables aléatoires sera une bonne estimation de la moyenne de la population. J'ai donc décidé de le faire sur X et Y, 1000 fois, et j'ai obtenu des échantillons, et j'ai attribué une variable aléatoire à la moyenne de chaque échantillon. L'intrigue était très normalement distribuée. La moyenne de X et Y était de 4,2 et 15,8 (qui étaient les mêmes que la population + - 0,15) et la variance était de 0,95 et 12,11.
J'ai effectué un test t sur ces deux observations (1000 points de données chacune) avec des variances inégales, car elles sont très différentes (0,95 et 12,11). Et l'hypothèse nulle a été rejetée.
Est-ce que cela a du sens? Cette approche est-elle correcte / significative ou un test z à deux échantillons est-il suffisant ou totalement faux?
J'ai également effectué un test de Wilcoxon non paramétrique juste pour être sûr (sur les X et Y d'origine) et l'hypothèse nulle a également été rejetée de manière convaincante. Dans le cas où ma méthode précédente était totalement fausse, je suppose que faire un test non paramétrique est bon, sauf pour la puissance statistique peut-être?

Dans les deux cas, les moyennes étaient significativement différentes. Cependant, je voudrais savoir si l'une ou les deux approches sont défectueuses / totalement erronées et si oui, quelle est l'alternative?

— Arun
source

21

L'idée que le test t ne concerne que les petits échantillons est un maintien historique. Oui, il a été initialement développé pour de petits échantillons, mais rien dans la théorie ne distingue le petit du grand. Dans les jours avant que les ordinateurs étaient courants pour faire des statistiques, les tables t ne montaient souvent qu'à environ 30 degrés de liberté et la normale était utilisée au-delà de cela comme une approximation étroite de la distribution t. C'était pour plus de commodité afin de garder la taille de la table en T raisonnable. Maintenant, avec les ordinateurs, nous pouvons faire des tests t pour n'importe quelle taille d'échantillon (bien que pour les très grands échantillons, la différence entre les résultats d'un test z et d'un test t soit très petite). L'idée principale est d'utiliser un test t lors de l'utilisation de l'échantillon pour estimer les écarts-types et le test z si les écarts-types de population sont connus (très rare).

Le théorème de la limite centrale nous permet d'utiliser l'inférence théorique normale (tests t dans ce cas) même si la population n'est pas normalement distribuée tant que la taille des échantillons est suffisamment grande. Cela signifie que votre test est approximatif (mais avec vos tailles d'échantillon, l'approbation doit être très bonne).

Le test de Wilcoxon n'est pas un test de moyens (sauf si vous savez que les populations sont parfaitement symétriques et que d'autres hypothèses improbables sont valables). Si les moyens sont le principal point d'intérêt, le test t est probablement le meilleur à citer.

Étant donné que vos écarts-types sont si différents et que les formes sont non normales et peut-être différentes les unes des autres, la différence de moyens n'est peut-être pas la chose la plus intéressante qui se passe ici. Pensez à la science et à ce que vous voulez faire de vos résultats. Les décisions sont-elles prises au niveau de la population ou au niveau individuel? Pensez à cet exemple: vous comparez 2 médicaments pour une maladie donnée, avec le médicament A la moitié de l'échantillon est décédée immédiatement, l'autre moitié s'est rétablie en une semaine environ; sur le médicament B tous ont survécu et se sont rétablis, mais le temps de récupération a été plus long qu'une semaine. Dans ce cas, vous soucieriez-vous vraiment du temps de récupération le plus court? Ou remplacez la moitié mourante en A par un temps de récupération très long (plus long que n'importe qui dans le groupe B).

— Greg Snow
source

Merci Greg. Je suppose qu'il n'y a rien de mal à la procédure en soi? Je comprends que je ne pose peut-être pas la bonne question, mais ma préoccupation concerne également le test / la procédure statistique et la compréhension elle-même, compte tenu de deux échantillons. Je vais vérifier si je pose la bonne question et revenir avec des questions, le cas échéant. Peut-être que si j'expliquais le problème biologique, cela aiderait avec plus de suggestions. Merci encore.

— Arun

5

Un ajout à la réponse déjà très complète de Greg.

Si je vous comprends bien, votre point 3 énonce la procédure suivante:

$n$ $X$
$m$ $n$
Répétez cela 1000 fois, enregistrez les moyens correspondants
$X$

Maintenant, votre hypothèse est que, pour cette moyenne, le théorème central limite tient et la variable aléatoire correspondante sera normalement distribuée.

Peut-être jetons un coup d'œil aux mathématiques derrière votre calcul pour identifier l'erreur:

$X$ $X_1,\ldots,X_n$ $X_1,\ldots, X_n\sim X$ $m$ $k$

{Oui}_{k} = \frac{1}{m} \sum_{je = 1}^{m} X_{μ_{je}^{k}}

$Y_k=\frac{1}{m}\sum_{i=1}^m X_{\mu^k_{i}}$

$\mu^k_i$ $n$ $i$

\frac{1}{1000} \sum_{k = 1}^{1000} \frac{1}{m} \sum_{je = 1}^{m} X_{μ_{je}^{k}}

$\frac{1}{1000}\sum_{k=1}^{1000} \frac{1}{m}\sum_{i=1}^m X_{\mu^k_{i}}$

$X_i$ $1000m$ $1000m$ $X_i$

Maintenant, cependant, le théorème central limite indique que la somme d'un grand nombre d' indépendants des variables aléatoires est à peu près normale. (Ce qui se traduit également par une moyenne approximative normale).

Votre somme ci-dessus ne produit pas d'échantillons indépendants. Vous avez peut-être des poids aléatoires, mais cela ne rend pas du tout vos échantillons indépendants. Ainsi, la procédure écrite en 3 n'est pas légale.

$t$

— Thilo
source

Je vous remercie. Il semble que t-test règle déjà le problème en utilisant CLT (de la réponse de greg que j'ai ignorée). Merci de l'avoir signalé et de l'explication claire de 3), ce que je voulais vraiment savoir. Je vais devoir investir plus de temps pour comprendre ces concepts.

— Arun

2

Gardez à l'esprit que le CLT fonctionne différemment bien en fonction de la distribution à portée de main (ou, pire encore, la valeur attendue ou la variance de la distribution n'existent pas - alors le CLT n'est même pas valide). En cas de doute, il est toujours judicieux de générer une distribution similaire à celle que vous avez observée, puis de simuler votre test en utilisant cette distribution plusieurs centaines de fois. Vous aurez une idée de la qualité des fournitures CLT d'approximation.

— Thilo