Diagnostic de colinéarité problématique uniquement lorsque le terme d'interaction est inclus

J'ai effectué une régression sur les comtés américains et je vérifie la colinéarité dans mes variables «indépendantes». Les diagnostics de régression de Belsley, Kuh et Welsch suggèrent d'examiner l'indice de condition et les proportions de décomposition de la variance:

library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1    1.000 0.000       0.000     0.000   0.000    0.001             0.002        0.003        0.002       0.002      0.001         0.000            
2    3.130 0.000       0.000     0.000   0.000    0.002             0.053        0.011        0.148       0.231      0.000         0.000            
3    3.305 0.000       0.000     0.000   0.000    0.000             0.095        0.072        0.351       0.003      0.000         0.000            
4    3.839 0.000       0.000     0.000   0.001    0.000             0.143        0.002        0.105       0.280      0.009         0.000            
5    5.547 0.000       0.002     0.000   0.000    0.050             0.093        0.592        0.084       0.005      0.002         0.000            
6    7.981 0.000       0.005     0.006   0.001    0.150             0.560        0.256        0.002       0.040      0.026         0.001            
7   11.170 0.000       0.009     0.003   0.000    0.046             0.000        0.018        0.003       0.250      0.272         0.035            
8   12.766 0.000       0.050     0.029   0.015    0.309             0.023        0.043        0.220       0.094      0.005         0.002            
9   18.800 0.009       0.017     0.003   0.209    0.001             0.002        0.001        0.047       0.006      0.430         0.041            
10  40.827 0.134       0.159     0.163   0.555    0.283             0.015        0.001        0.035       0.008      0.186         0.238            
11  76.709 0.855       0.759     0.796   0.219    0.157             0.013        0.002        0.004       0.080      0.069         0.683            

## colldiag(, scale=TRUE) for model without interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1    1.000 0.000       0.001     0.001   0.000    0.001             0.003        0.004        0.003       0.003      0.001        
2    2.988 0.000       0.000     0.001   0.000    0.002             0.030        0.003        0.216       0.253      0.000        
3    3.128 0.000       0.000     0.002   0.000    0.000             0.112        0.076        0.294       0.027      0.000        
4    3.630 0.000       0.002     0.001   0.001    0.000             0.160        0.003        0.105       0.248      0.009        
5    5.234 0.000       0.008     0.002   0.000    0.053             0.087        0.594        0.086       0.004      0.001        
6    7.556 0.000       0.024     0.039   0.001    0.143             0.557        0.275        0.002       0.025      0.035        
7   11.898 0.000       0.278     0.080   0.017    0.371             0.026        0.023        0.147       0.005      0.038        
8   13.242 0.000       0.001     0.343   0.006    0.000             0.000        0.017        0.129       0.328      0.553        
9   21.558 0.010       0.540     0.332   0.355    0.037             0.000        0.003        0.003       0.020      0.083        
10  50.506 0.989       0.148     0.199   0.620    0.393             0.026        0.004        0.016       0.087      0.279

?HH::vif suggère que les VIF> 5 sont problématiques:

library(HH)
## vif() for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         8.378646         16.329881          1.653584          2.744314          1.885095          1.471123          1.436229          1.789454 
    elderly09_pct inc09_10k:unins09 
         1.547234         11.590162 

## vif() for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.859426          2.378138          1.628817          2.716702          1.882828          1.471102          1.404482          1.772352 
    elderly09_pct 
         1.545867

Alors que les diagnostics de régression de John Fox suggèrent de regarder la racine carrée du VIF:

library(car)
## sqrt(vif) for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         2.894589          4.041025          1.285917          1.656597          1.372987          1.212898          1.198428          1.337705 
    elderly09_pct inc09_10k:unins09 
         1.243879          3.404433 
## sqrt(vif) for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.363608          1.542121          1.276251          1.648242          1.372162          1.212890          1.185108          1.331297 
    elderly09_pct 
         1.243329

Dans les deux premiers cas (où une coupure claire est suggérée), le modèle n'est problématique que lorsque le terme d'interaction est inclus.

Le modèle avec le terme d'interaction a jusqu'à ce point été ma spécification préférée.

J'ai deux questions compte tenu de cette bizarrerie des données:

Un terme d'interaction aggrave-t-il toujours la colinéarité des données?
Étant donné que les deux variables sans le terme d'interaction ne sont pas supérieures au seuil, suis-je d'accord pour utiliser le modèle avec le terme d'interaction. Plus précisément, la raison pour laquelle je pense que cela pourrait être correct est que j'utilise la méthode de King, Tomz et Wittenberg (2000) pour interpréter les coefficients (modèle binomial négatif), où je tiens généralement les autres coefficients à la moyenne, puis interpréter ce qui arrive aux prédictions de ma variable dépendante lorsque je me déplace inc09_10ket me déplace unins09indépendamment et conjointement.

r multicollinearity vif variance-decomposition

— Ari B. Friedman
source

Réponses:

Oui, c'est généralement le cas avec les interactions non centrées. Un regard rapide sur ce qui arrive à la corrélation de deux variables indépendantes et leur "interaction"

set.seed(12345)
a = rnorm(10000,20,2)
b = rnorm(10000,10,2)
cor(a,b)
cor(a,a*b)

> cor(a,b)
[1] 0.01564907
> cor(a,a*b)
[1] 0.4608877

Et puis quand vous les centrez:

c = a - 20
d = b - 10
cor(c,d)
cor(c,c*d)

> cor(c,d)
[1] 0.01564907
> cor(c,c*d)
[1] 0.001908758

Incidemment, la même chose peut se produire avec l'inclusion de termes polynomiaux (c'est-à-dire ) sans premier centrage. $X,~X^2,~...$

Vous pouvez donc essayer cela avec votre paire.

Quant à savoir pourquoi le centrage aide - mais revenons à la définition de la covariance

\begin{aligned} Cov (X, X Y) & = E [(X - E (X)) (X Y - E (X Y))] \\ = E [(X - μ_{x}) (X Y - μ_{x y})] \\ = E [X^{2} Y - X μ_{x y} - X Y μ_{x} + μ_{x} μ_{x y}] \\ = E [X^{2} Y] - E [X] μ_{x y} - E [X Y] μ_{x} + μ_{x} μ_{x y} \end{aligned}

$\begin{align} \text{Cov}(X,XY) &= E[(X-E(X))(XY-E(XY))] \\ &= E[(X-\mu_x)(XY-\mu_{xy})] \\ &= E[X^2Y-X\mu_{xy}-XY\mu_x+\mu_x\mu_{xy}] \\ &= E[X^2Y]-E[X]\mu_{xy}-E[XY]\mu_x+\mu_x\mu_{xy} \\ \end{align}$

Même compte tenu de l'indépendance de X et Y

\begin{aligned} = E [X^{2}] E [Y] - μ_{x} μ_{x} μ_{y} - μ_{x} μ_{y} μ_{x} + μ_{x} μ_{x} μ_{y} \\ = (σ_{x}^{2} + μ_{x}^{2}) μ_{y} - μ_{x}^{2} μ_{y} \\ = σ_{x}^{2} μ_{y} \end{aligned}

$\begin{align} \qquad\qquad\qquad\, &= E[X^2]E[Y]-\mu_x\mu_x\mu_y-\mu_x\mu_y\mu_x+\mu_x\mu_x\mu_y \\ &= (\sigma_x^2+\mu_x^2)\mu_y-\mu_x^2\mu_y \\ &= \sigma_x^2\mu_y \\ \end{align}$

Cela n'est pas directement lié à votre problème de régression, car vous n'avez probablement pas et complètement indépendants , et puisque la corrélation entre deux variables explicatives n'entraîne pas toujours des problèmes de multicolinéarité dans la régression. Mais cela montre comment une interaction entre deux variables indépendantes non centrées fait apparaître la corrélation, et cette corrélation pourrait provoquer des problèmes de multicolinéarité. $X$ $Y$

Intuitivement pour moi, ayant des variables non-centrées Interagir signifie simplement que lorsque est grand, alors va aussi être plus à l'échelle absolue quel que soit , et ainsi et finissent par corrélation, et de même pour . $X$ $XY$ $Y$ $X$ $XY$ $Y$

— Affine
source

Intéressant, merci. Avez-vous une explication ou une citation pour expliquer pourquoi le centrage est important?

— Ari B. Friedman

Je pense que cette réponse ne mérite pas toute la prime, mais je voudrais lui donner une demi-prime. Je ne suis pas sûr que cela se produise à moins qu'il n'ait un deuxième vote positif: - /.

— Ari B. Friedman

@ AriB.Friedman, vous n'avez pas (exactement) la possibilité de donner la moitié de la prime. Vous ne pouvez pas attribuer la prime (bien que vous ayez toujours perdu le représentant de toute façon) et ce message recevra probablement la moitié de la prime automatiquement (voir la section correspondante de la page d'aide ). Cependant, pourquoi cette réponse ne mériterait-elle pas la prime? Affine est exactement ici (+1).

— gung - Rétablir Monica

@gung Je cherchais une pré-édition. Le mérite certainement maintenant. Merci @Affine! En ce qui concerne la partie demi-prime, je crois comprendre qu'une >=réponse +2 obtient une demi-prime si la prime n'est pas attribuée manuellement.

— Ari B. Friedman

@ AriB.Friedman, c'est vrai, mais avant de commenter (et surévalué, et quelqu'un d'autre aussi), il n'avait pas plus de 2 votes positifs.

— gung - Rétablir Monica

J'ai trouvé les publications suivantes sur ce sujet utiles:

Robinson et Schumacker (2009): Effets d'interaction: centrage, facteur d'inflation de la variance et problèmes d'interprétation

"Les effets de la mise à l'échelle des prédicteurs sur les coefficients des équations de régression (solutions centrées par rapport aux solutions non centrées et effets d'interaction d'ordre supérieur (interactions à 3 voies; catégoriques par effets continus)) ont été réfléchis par Aiken et West (1991). Leur exemple illustre cette multicolinéarité considérable est introduit dans une équation de régression avec un terme d'interaction lorsque les variables ne sont pas centrées. »

Afshartous & Preston (2011): Résultats clés des modèles d'interaction avec centrage

«Les motivations à utiliser le centrage variable incluent une meilleure interprétabilité des coefficients et une instabilité numérique réduite pour l'estimation associée à la multicolinéarité.

Évidemment, Aiken et West (1991) couvrent également ce sujet, mais je n'ai pas leur livre.

— Tapoter
source