En termes matriciels, vos modèles sont sous la forme habituelle . E[ Oui] = Xβ
Le premier modèle représente un élément du premier groupe par la ligne en X , correspondant à l'ordonnée à l'origine, l'indicateur pour la catégorie 2 et l'indicateur pour la catégorie 3. Il représente un élément du deuxième groupe par la ligne ( 1 , 1 , 0 ) et un élément du troisième groupe par ( 1 , 0 , 1 ) .( 1 , 0 , 0 )X( 1 , 1 , 0 )( 1 , 0 , 1 )
Le deuxième modèle utilise à la place des lignes , ( 1 , 2 , 2 2 ) = ( 1 , 2 , 4 ) et ( 1 , 3 , 3 2 ) = ( 1 , 3 , 9 ) , respectivement.( 1 , 1 , 12) = ( 1 , 1 , 1 )( 1 , 2 , 22)=(1,2,4)(1,3,32)=(1,3,9)
Appelons les matrices de modèles résultantes et X 2 . Ils sont simplement liés: les colonnes de l'une sont des combinaisons linéaires des colonnes de l'autre. Par exemple, laissezX1X2
V= ⎛⎝⎜100112138⎞⎠⎟.
Depuis
⎛⎝⎜111010001⎞⎠⎟V= ⎛⎝⎜111123149⎞⎠⎟,
il s'ensuit que
X1V= X2.
Les modèles eux-mêmes sont donc liés par
X1β1= E[ Oui] = X2β2= ( X1V) β2= X1( Vβ2) .
β2
β1= Vβ2.
La même relation vaut donc pour leurs estimations des moindres carrés. Cela montre que les modèles ont des ajustements identiques : ils les expriment simplement différemment.
Étant donné que les premières colonnes des deux matrices de modèle sont identiques, toute table ANOVA qui décompose la variance entre la première colonne et les colonnes restantes ne changera pas. Une table ANOVA qui fait la distinction entre les deuxième et troisième colonnes dépendra cependant de la façon dont les données sont codées.
R15X1X2
Pour illustrer, voici des données comme les vôtres (mais avec des réponses différentes) et les analyses correspondantes générées dans R
.
set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))
Montez les deux modèles:
fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)
Affichez leurs tableaux ANOVA:
anova(fit.1)
anova(fit.2)
La sortie du premier modèle est
Df Sum Sq Mean Sq F value Pr(>F)
factor(group) 2 51.836 25.918 14.471 0.000634 ***
Residuals 12 21.492 1.791
Pour le deuxième modèle, il est
Df Sum Sq Mean Sq F value Pr(>F)
group 1 50.816 50.816 28.3726 0.0001803 ***
I(group^2) 1 1.020 1.020 0.5694 0.4650488
Residuals 12 21.492 1.791
Vous pouvez voir que les sommes résiduelles des carrés sont les mêmes. En ajoutant les deux premières lignes du deuxième modèle, vous obtiendrez le même DF et la même somme de carrés, à partir desquels les mêmes carrés, valeurs F et valeurs p peuvent être calculés.
Enfin, comparons les estimations des coefficients.
beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)
La sortie est
(Intercept) factor(group)2 factor(group)3
0.4508762 2.8073697 4.5084944
(Intercept) group I(group^2)
-3.4627385 4.4667371 -0.5531225
V
⎛⎝⎜100112138⎞⎠⎟⎛⎝⎜- 3,46273854.4667371- 0,5531225⎞⎠⎟= ⎛⎝⎜0,45087622,80736974.5084944⎞⎠⎟.
Les ajustements sont vraiment les mêmes que ceux revendiqués.