Une question probablement très basique sur l'ANOVA multifactorielle. Supposons une conception bidirectionnelle dans laquelle nous testons à la fois les effets principaux A, B et l'interaction A: B. Lors du test de l'effet principal pour A avec le type I SS, l'effet SS est calculé comme la différence , où R S S ( 1 ) est la somme d'erreur résiduelle des carrés pour le modèle avec seulement l'ordonnée à l'origine, et R S S ( A ) le RSS pour le modèle avec le facteur A ajouté. Ma question concerne le choix du terme d'erreur:
Comment justifiez-vous que le terme d'erreur pour ce test est généralement calculé à partir du RSS du modèle complet A + B + A: B qui comprend à la fois les effets principaux et l'interaction?
... au lieu de prendre le terme d'erreur du modèle non restreint de la comparaison réelle (RSS de juste l'effet principal A dans le cas ci-dessus):
Cela fait une différence, car le terme d'erreur du modèle complet est probablement (pas toujours) plus petit que le terme d'erreur du modèle sans restriction dans la comparaison. Il semble que le choix du terme d'erreur soit quelque peu arbitraire, créant de la place pour les changements de valeur de p souhaités simplement en ajoutant / supprimant des facteurs qui ne sont pas vraiment intéressants, mais en changeant quand même le terme d'erreur.
Dans l'exemple suivant, la valeur F pour A change considérablement en fonction du choix pour le modèle complet, même si la comparaison réelle de l'effet SS reste la même.
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+ 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+ 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)
> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1)) # full model = unrestricted model (just A)
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.556 0.9342 0.4009
Residuals 42 2272.80 54.114
> anova(lm(DV ~ IV1 + IV2)) # full model = A+B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.9833 0.1509
IV2 2 1253.19 626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61 25.49
> anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.8102 0.1782
IV2 2 1253.19 626.59 22.4357 4.711e-07 ***
IV1:IV2 4 14.19 3.55 0.1270 0.9717
Residuals 36 1005.42 27.93
La même question s'applique aux SS de type II, et en général à une hypothèse linéaire générale, c'est-à-dire à une comparaison de modèle entre un modèle restreint et un modèle non restreint dans un modèle complet. (Pour le type III SS, le modèle sans restriction est toujours le modèle complet, donc la question ne se pose pas là)
anova(lm(DV ~ IV1))
anova(lm(DV ~ 1))
anova(lm(DV ~ IV1))