Il y a beaucoup de choses sur la colinéarité en ce qui concerne les prédicteurs continus, mais pas tellement que je peux trouver sur les prédicteurs catégoriques. J'ai des données de ce type illustrées ci-dessous.
Le premier facteur est une variable génétique (nombre d'allèles), le second est une catégorie de maladie. Il est clair que les gènes précèdent la maladie et sont un facteur qui montre les symptômes qui conduisent à un diagnostic. Cependant, une analyse régulière utilisant des sommes de carrés de type II ou III, comme cela serait couramment fait en psychologie avec SPSS, manque l'effet. Une analyse de sommes de carrés de type I la récupère, lorsque l'ordre approprié est saisi car il dépend de l'ordre. De plus, il y a probablement des composants supplémentaires au processus de la maladie qui ne sont pas liés au gène qui ne sont pas bien identifiés avec le type II ou III, voir anova (lm1) ci-dessous vs lm2 ou Anova.
Exemples de données:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- lm1 avec le type I SS me semble être la manière appropriée d'analyser les données compte tenu de la théorie de base. Mon hypothèse est-elle correcte?
- J'ai l'habitude de manipuler explicitement des conceptions orthogonales, où ces problèmes n'apparaissent généralement pas. Est-il difficile de convaincre les examinateurs qu'il s'agit du meilleur processus (en supposant que le point 1 est correct) dans le contexte d'un champ centré sur SPSS?
- Et que signaler dans la section des statistiques? Une analyse supplémentaire ou des commentaires qui devraient être inclus?