Colinéarité entre les variables catégorielles

11

Il y a beaucoup de choses sur la colinéarité en ce qui concerne les prédicteurs continus, mais pas tellement que je peux trouver sur les prédicteurs catégoriques. J'ai des données de ce type illustrées ci-dessous.

Le premier facteur est une variable génétique (nombre d'allèles), le second est une catégorie de maladie. Il est clair que les gènes précèdent la maladie et sont un facteur qui montre les symptômes qui conduisent à un diagnostic. Cependant, une analyse régulière utilisant des sommes de carrés de type II ou III, comme cela serait couramment fait en psychologie avec SPSS, manque l'effet. Une analyse de sommes de carrés de type I la récupère, lorsque l'ordre approprié est saisi car il dépend de l'ordre. De plus, il y a probablement des composants supplémentaires au processus de la maladie qui ne sont pas liés au gène qui ne sont pas bien identifiés avec le type II ou III, voir anova (lm1) ci-dessous vs lm2 ou Anova.

Exemples de données:

set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv  <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)

library(car)
chisq.test(table(iv1, iv2))          # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1);    lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1);                    anova(lm2)
Anova(lm1, type="II");         Anova(lm2, type="II")

lm1 avec le type I SS me semble être la manière appropriée d'analyser les données compte tenu de la théorie de base. Mon hypothèse est-elle correcte?
J'ai l'habitude de manipuler explicitement des conceptions orthogonales, où ces problèmes n'apparaissent généralement pas. Est-il difficile de convaincre les examinateurs qu'il s'agit du meilleur processus (en supposant que le point 1 est correct) dans le contexte d'un champ centré sur SPSS?
Et que signaler dans la section des statistiques? Une analyse supplémentaire ou des commentaires qui devraient être inclus?

— Matt Albrecht
source

Il est surprenant d'apprendre que quelqu'un utilisant SPSS ne connaît que les SS de type III ou II. Et tu parles comme ça.

— ttnphns

2

Eh bien, j'avais la même lacune de connaissances à laquelle je fais référence dans ma question. Cela semble être davantage le reflet des intérêts, des connaissances et de la façon dont les gens sont introduits au logiciel plutôt qu'au logiciel lui-même. Mais les options par défaut jouent également un grand rôle, l'option par défaut de type III étant utilisée dans SPSS.

— Matt Albrecht

Vous semblez dire que vous avez un moyen d'entrer 2 prédicteurs dans un ordre spécifique en utilisant la procédure anova de SPSS (unianova?). Je ne connais qu'un moyen de spécifier l'ordre en passant à la procédure de régression. Comment accomplissez-vous cela?

— rolando2

8

La colinéarité entre les facteurs est assez compliquée. L'exemple classique est celui que vous obtenez lorsque vous regroupez et codez de manière fictive les trois variables continues «âge», «période» et «année». Il est analysé dans:

Kupper, LL, Janis, JM, Salama, IA, Yoshizawa, CN Greenberg, BG et Winsborough, HH (1983). Analyse âge-période-cohorte: une illustration des problèmes d'évaluation de l'interaction dans une observation par cellule de données , Communicatios in Statistics - Theory and Methods , 12, 23, pp. 201-217.

Les coefficients que vous obtenez, après avoir supprimé quatre (et non trois) références, ne sont identifiés que jusqu'à une tendance linéaire inconnue. Ceci peut être analysé car la colinéarité résulte d'une colinéarité connue dans les variables sources (âge + année = période).

Certains travaux ont également été menés sur la colinéarité parasite entre deux facteurs. Il a été analysé dans:

Eccleston, JA et Hedayat, A. (1974). Sur la théorie des plans connectés: caractérisation et optimalité , The Annals of Statistics , 2, 6, pp. 1238-1255.

Le résultat est que la colinéarité entre les variables catégorielles signifie que l'ensemble de données doit être divisé en parties déconnectées, avec un niveau de référence dans chaque composant. Les coefficients estimés de différentes composantes ne peuvent pas être comparés directement.

Pour des colinéarités plus compliquées entre trois facteurs ou plus, la situation est compliquée. Il existe des procédures pour trouver des fonctions estimables, c'est-à-dire des combinaisons linéaires des coefficients qui sont interprétables, par exemple dans:

"Sur la connectivité des conceptions de ligne-colonne" par Godolphin et Godolphin dans Utilitas Mathematica (60) pp 51-65

Mais à ma connaissance, il n'existe pas de solution miracle générale pour gérer de telles colinéarités de manière intuitive.

— Simen Gaure
source

1

Après avoir discuté avec certaines des personnes statistiques de la place. Il semble que ce type de question ne soit pas la plus correcte. L'utilisation de l'ANOVA (ou de méthodes similaires) pour étudier les interactions génétiques et diagnostiques sur les mesures neuropsychologiques lorsqu'elles sont fortement corrélées est une question difficile. J'ai plutôt été invité à examiner la structure des données avec la modélisation d'équations structurelles.

Cette réponse sera mise à jour au fur et à mesure que j'en apprendrai plus sur SEM.

— Matt Albrecht
source