Est-ce mal d'utiliser l'ANOVA au lieu d'un test t pour comparer deux moyennes?

J'ai une répartition des salaires et je veux comparer la différence de moyenne pour les hommes et les femmes. Je sais qu'il y a le test T étudiant pour comparer deux moyennes mais après avoir suggéré l'ANOVA, j'ai reçu des critiques disant que l'ANOVA est pour comparer plus de deux moyennes.

Qu'est-ce qui (le cas échéant) est mauvais en l'utilisant pour comparer seulement 2 moyennes?

hypothesis-testing anova t-test

— Pablo Fernandez
source

Qui a dit que c'était faux?

— gung - Rétablir Monica

Pourquoi ne reformulez-vous pas la question en supprimant toute supposition? Quelque chose dans le sens de "L'ANOVA est-elle équivalente à un test t lorsque l'on compare deux groupes?" Juste une idée ... Je ne prendrai aucune responsabilité quant à l'accueil de la question :-)

— Antoni Parellada

Vous pouvez également modifier votre question pour montrer à quelqu'un qui dit que c'est faux ... afin que nous puissions expliquer qu'il s'est trompé. La difficulté ici est que la prémisse de la question (qu'elle est fausse) est erronée.

— Glen_b -Reinstate Monica

Bien que la prémisse soit erronée, cette question ne semble pas être hors sujet ou si peu claire à laquelle il ne peut être répondu (en effet, elle a été répondue). Je pense que cela peut rester ouvert.

— gung - Réintégrer Monica

D'accord, @ gung. Je pense que la question reflète un manque de connaissances sur le sujet. Si elle était formulée différemment (ou "mieux"), alors la question n'aurait probablement pas été posée, car alors ils auraient déjà connu la réponse.

— D_Williams

Réponses:

Ce n'est pas faux et sera équivalent à un test qui suppose des variances égales. De plus, avec deux groupes, sqrt (statistique f) est égal à (valeur abrégée de la) statistique t. Je suis quelque peu convaincu qu'un test t avec des variances inégales n'est pas équivalent. Étant donné que vous pouvez obtenir des estimations appropriées lorsque les variances sont inégales (les variances sont généralement toujours inégales à une décimale), il est probablement judicieux d'utiliser le test t car il est plus flexible qu'une ANOVA (en supposant que vous n'avez que deux groupes).

Mise à jour:

Voici un code pour montrer que la statistique t ^ 2 pour le test t à variance égale, mais pas le test t inégal, est la même que la statistique f.

dat_mtcars <- mtcars

# unequal variance model
 t_unequal <- t.test(mpg ~ factor(vs), data = dat_mtcars)
 t_stat_unequal <-  t_unequal$statistic

# assume equal variance
 t_equal <- t.test(mpg ~ factor(vs), var.equal = TRUE, data = dat_mtcars)
 t_stat_equal <- t_equal$statistic

# anova
 a_equal <- aov(mpg ~ factor(vs), data = dat_mtcars)
 f_stat <- anova(a_equal)
 f_stat$`F value`[1]

# compare by dividing (1 = equivalence)
 (t_stat_unequal^2) / f_stat$`F value`[1] 
 (t_stat_equal^2) / f_stat$`F value`[1] # (t-stat with equal var^2) = F

— D_Williams
source

+1, notez qu'il est possible d'ajuster un test ANOVA / F unidirectionnel pour les variances inégales (cf. Alternatives à l'ANOVA unidirectionnelle pour les données hétéroscédastiques ).

— gung - Rétablir Monica

@gung OK. Je n'étais pas sûr de cela, car je n'ai pas utilisé ANOVA depuis quelque temps (je faisais le truc bayésien).

— D_Williams

t

$t$

t

$t$

Ils sont équivalents. Une ANOVA avec seulement deux groupes équivaut à un test t. La différence est que lorsque vous avez plusieurs groupes, l'erreur de type I augmentera pour les tests t car vous ne pourrez pas tester l'hypothèse conjointement. L'ANOVA ne souffre pas de ce problème car vous les testez conjointement via un test F.

— Robininsa
source

Je ne pense pas qu'il perd de la puissance, je pense que cela a plus à voir avec les erreurs de type I. En général, plus vous avez de tests, plus vous devriez obtenir de puissance.

— HelloWorld

Je crois (comme @StudentT le dit) que c'est une question d'erreurs de type I. Dans un cours que je prends, ils nous font utiliser la "correction de Bonferroni" exactement pour cela. en.wikipedia.org/wiki/Bonferroni_correction

— Pablo Fernandez

Oui, vous avez raison. Il ne doit pas s'agir d'erreurs d'alimentation (type II) mais de type I. Je crois que le raisonnement est correct, mais pour une raison quelconque, j'ai écrit une erreur d'alimentation et non de type 1. Je vais modifier pour m'assurer de ne tromper personne.

— robinsa