Il serait intéressant d'apprécier que la divergence concerne le type de variables , et plus particulièrement les types de variables explicatives . Dans l'ANOVA typique, nous avons une variable catégorielle avec différents groupes et nous essayons de déterminer si la mesure d'une variable continue diffère entre les groupes. D'un autre côté, l'OLS a tendance à être perçue comme principalement une tentative d'évaluer la relation entre une régression continue ou une variable de réponse et un ou plusieurs régresseurs ou variables explicatives . En ce sens, la régression peut être considérée comme une technique différente, se prêtant à la prédiction de valeurs basées sur une droite de régression.
Cependant , cette différence ne résiste pas à l'extension de l'ANOVA au reste de l'analyse de la soupe à l'alphabet variance (ANCOVA, MANOVA, MANCOVA); ou l'inclusion de variables codées fictivement dans la régression OLS. Je ne suis pas clair sur les points de repère historiques spécifiques, mais c'est comme si les deux techniques avaient développé des adaptations parallèles pour s'attaquer à des modèles de plus en plus complexes.
Par exemple, nous pouvons voir que les différences entre ANCOVA et OLS avec des variables factices (ou catégorielles) (dans les deux cas avec des interactions) sont tout au plus cosmétiques. Veuillez excuser mon départ des limites du titre de votre question concernant la régression linéaire multiple.
Dans les deux cas, le modèle est essentiellement identique au point que dans R la lm
fonction est utilisée pour réaliser l'ANCOVA . Cependant, elle peut être présentée comme différente en ce qui concerne l'inclusion d'une intersection correspondant au premier niveau (ou groupe) de la variable facteur (ou catégorielle) dans le modèle de régression.
Dans un modèle équilibré ( groupes taille égale , ) et une seule covariable (pour simplifier la présentation de la matrice), la matrice du modèle dans ANCOVA peut être rencontrée comme une variation de:jen1 , 2 , ⋯je
X= ⎡⎣⎢1n10001n20001n3Xn1000Xn2000Xn3⎤⎦⎥
pour groupes de la variable facteur, exprimés en matrices de blocs.3
Cela correspond au modèle linéaire:
y= αje+β1Xn1+ β2Xn2+ β3Xn3+ ϵje
avec équivalent aux différents groupes dans une ANOVA modèle, tandis que les différents sont les pentes de la covariable pour chacun des groupes.
αjeβ
La présentation du même modèle dans le champ de régression, et spécifiquement dans R, considère une intersection globale, correspondant à l'un des groupes, et la matrice du modèle pourrait être présentée comme:
X=⎡⎣⎢⎢⎢⋮J3 n , 1⋮01n20001n3⋮X⋮0000Xn2000Xn3⎤⎦⎥⎥⎥
de l'équation OLS:
y= β0+ μje+β1Xn1+β2Xn2+β3Xn3+ ϵje
.
Dans ce modèle, l'ordonnée à l'origine globale est modifiée à chaque niveau de groupe par , et les groupes ont également des pentes différentes.μ iβ0μje
Comme vous pouvez le voir sur les matrices du modèle, la présentation dément l'identité réelle entre la régression et l'analyse de la variance.
Je aime genre de vérifier avec quelques lignes de code et mes données favorites définies mtcars
dans R . J'utilise lm
pour ANCOVA selon le document de Ben Bolker disponible ici .
mtcars$cyl <- as.factor(mtcars$cyl) # Cylinders variable into factor w 3 levels
D <- mtcars # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),] # Ordering obs. for block matrices.
model.matrix(lm(mpg ~ wt * cyl, D)) # This is the model matrix for ANCOVA
En ce qui concerne la partie de la question sur la méthode à utiliser (régression avec R!), Vous pouvez trouver amusant ce commentaire en ligne que j'ai rencontré en écrivant ce post.