Évaluation de la multicolinéarité des variables prédictives dichotomiques

8

Je travaille sur un projet où nous observons le comportement sur une tâche (par exemple le temps de réponse) et modélisons ce comportement en fonction de plusieurs variables expérimentalement manipulées ainsi que de plusieurs variables observées (sexe du participant, QI du participant, réponses sur un suivi- questionnaire). Je ne m'inquiète pas de la multicolinéarité parmi les variables expérimentales car elles ont été spécifiquement manipulées pour être indépendantes, mais je suis préoccupé par les variables observées. Cependant, je ne sais pas comment évaluer l'indépendance parmi les variables observées, en partie parce que je semble obtenir des résultats quelque peu différents selon la façon dont je configure l'assesseur, et aussi parce que je ne suis pas très familier avec la corrélation dans le contexte où une ou les deux variables sont dichotomiques.

Par exemple, voici deux approches différentes pour déterminer si le sexe est indépendant du QI. Je ne suis pas un fan des tests de signification d'hypothèse nulle, donc dans les deux approches, je construis deux modèles, un avec une relation et l'autre sans, puis calcul et rapport de vraisemblance du journal corrigé AIC:

m1 = lm(IQ ~ 1)
m2 = lm(IQ ~ sex)
LLR1 = AIC(m1)-AIC(m2)

m3 = glm(sex~1,family='binomial')
m4 = glm(sex~IQ,family='binomial')
LLR2 = AIC(m3)-AIC(m4)

Cependant, ces approches donnent des réponses quelque peu différentes; LLR1 est d'environ 7, ce qui suggère des preuves solides en faveur d'une relation, tandis que LLR2 est d'environ 0,3, ce qui suggère des preuves très faibles en faveur d'une relation.

De plus, si j'essaie d'évaluer l'indépendance entre le sexe et une autre variable observée dichotomique, "yn", le LLR résultant dépend de la même manière si je configure les modèles pour prédire le sexe à partir de yn, ou pour prédire yn à partir du sexe.

Avez-vous des suggestions sur la raison de ces différences et sur la manière la plus raisonnable de procéder?

— Mike Lawrence
source

Est -ce seqdans votre code pour une faute de frappe sex? Si vous avez copié-collé votre code d'analyse, cela pourrait faire partie du problème ..

— onestop

oups, c'est juste une faute de frappe dans le code que j'ai inclus ci-dessus. Dans mon code actuel, je n'avais pas la faute de frappe. Merci d'avoir attrapé ça.

— Mike Lawrence

3

Je pense que vous essayez d'interpréter P (A | B) et P (B | A) comme s'ils devraient être la même chose. Il n'y a aucune raison pour qu'ils soient égaux, en raison de la règle du produit:

P (A B) = P (A | B) P (B) = P (B | A) P (A)

$P(AB)=P(A|B)P(B)=P(B|A)P(A)$

sauf si puis en général. Cela explique la différence dans le cas "yn". À moins d'avoir un tableau «équilibré» (totaux de lignes égaux aux totaux de colonnes), les probabilités conditionnelles (lignes et colonnes) ne seront pas égales. $P(B)=P(A)$ $P(A|B) \neq P(B|A)$

Un test pour "l'indépendance logique / statistique" (mais pas l'indépendance causale) entre les variables catégorielles peut être donné comme:

T = \sum_{i j} O_{i j} l o g (\frac{O_{i j}}{E_{i j}})

$T=\sum_{ij} O_{ij} log\Big(\frac{O_{ij}}{E_{ij}}\Big)$

Où indexe les cellules du tableau (donc dans votre exemple, ). est la valeur observée dans le tableau et est ce qui est "attendu" sous l'indépendance, qui est simplement le produit des marginaux $ij$ $ij=11,12,21,22$ $O_{ij}$ $E_{ij}$

E_{i j} = O_{∙ ∙} \frac{O_{i ∙}}{O_{∙ ∙}} \frac{O_{∙ j}}{O_{∙ ∙}} = \frac{O_{i ∙} O_{∙ j}}{O_{∙ ∙}}

$E_{ij}=O_{\bullet \bullet}\frac{O_{i \bullet}}{O_{\bullet \bullet}}\frac{O_{\bullet j}}{O_{\bullet \bullet}} =\frac{O_{i \bullet}O_{\bullet j}}{O_{\bullet \bullet}}$

Un " " indique que vous additionnez cet index. Vous pouvez montrer que si vous aviez une valeur de log-odds antérieure pour l'indépendance de alors la log-odds postérieure est . L'hypothèse alternative est (ie pas de simplification, pas d'indépendance), pour laquelle . Ainsi, T dit "à quel point" les données soutiennent la non-indépendance, dans la classe des distributions multinomiales. La bonne chose à propos de ce test est qu'il fonctionne pour tous les , vous n'avez donc pas à vous soucier d'une table "clairsemée". Ce test donnera toujours des résultats sensibles. $\bullet$ $L_{I}$ $L_{I}-T$ $E_{ij}=O_{ij}$ $T=0$ $E_{ij}>0$

Pour les régressions, cela vous indique que la valeur moyenne du QI est différente entre les deux valeurs de sexe, bien que je ne connaisse pas l'échelle de la différence AIC (est-ce "grand"?).

Je ne sais pas dans quelle mesure l'AIC est appropriée à un GLM binomial. Il peut être préférable de consulter les tableaux ANOVA et déviance pour le LM et le GLM respectivement.

Avez-vous également tracé les données? tracer toujours les données !!! cela pourra vous dire des choses que le test ne fait pas. À quel point les QI sont-ils différents lorsqu'ils sont tracés par sexe? à quel point les sexes sont-ils différents lorsqu'ils sont tracés par QI?

— probabilitéislogique
source

3

Pourquoi vous inquiétez-vous de la multicolinéarité? La seule raison pour laquelle nous avons besoin de cette hypothèse dans la régression est de nous assurer d'obtenir des estimations uniques. La multicolinéarité n'a d'importance pour l'estimation que lorsqu'elle est parfaite --- lorsqu'une variable est une combinaison linéaire exacte des autres.

Si vos variables manipulées expérimentalement ont été assignées au hasard, alors leurs corrélations avec les prédicteurs observés ainsi que les facteurs non observés devraient être (approximativement) 0; c'est cette hypothèse qui vous aide à obtenir des estimations impartiales.

Cela dit, la multicolinéarité non parfaite peut agrandir vos erreurs standard, mais uniquement sur les variables qui rencontrent le problème de multicolinéarité. Dans votre contexte, les erreurs standard des coefficients sur vos variables expérimentales ne doivent pas être impactées.

— Charlie
source