Vous semblez inclure le terme d'interaction ub:lb
, mais pas ub
et lb
eux - mêmes en tant que prédicteurs séparés. Cela violerait le soi-disant "principe de marginalité" qui stipule que les termes d'ordre supérieur ne devraient inclure que des variables présentes en termes d'ordre inférieur ( Wikipedia pour commencer ). En fait, vous incluez maintenant un prédicteur qui n'est que le produit élémentaire de ub
et lb
.
1VjeFj est juste où est la valeur lorsque vous exécutez une régression avec votre variable de prédiction d'origine comme critère prédit par tous les prédicteurs restants (c'est aussi le ème élément diagonal de , l'inverse de la matrice de corrélation des prédicteurs). A VIF valeur de 50 indique donc que vous obtenez un de 0,98 pour prédire avec les autres prédicteurs, ce qui indique que est presque complètement redondant (même pour , de 0,97). R 2 j R2jjR - 1 x R2R211 - R2jR2jR2jjR- 1XR2ub
ub
lb
R2
Je commencerais à faire toutes les corrélations par paires entre les prédicteurs, et exécuter les régressions susmentionnées pour voir quelles variables prédire ub
et lb
pour voir si la redondance est facilement expliquée. Si tel est le cas, vous pouvez supprimer les prédicteurs redondants. Vous pouvez également examiner la régression des crêtes (à lm.ridge()
partir du package MASS
dans R).
Des diagnostics de multicolinéarité plus avancés utilisent la structure de valeurs propres de où est la matrice de conception de la régression (c'est-à-dire, tous les prédicteurs comme vecteurs de colonne). La condition est où et sont les plus grands et les plus petits ( ) valeurs propres de . Dans R, vous pouvez utiliser , où le modèle utilise généralement les variables standardisées.X κ √XtXXκ λmaxλmin≠0XtXλm a x√λm i n√λm a xλm i n≠ 0XtXkappa(lm(<formula>))
lm()
Géométriquement, vous donne une idée de la forme du nuage de données formé par les prédicteurs. Avec 2 prédicteurs, le nuage de points pourrait ressembler à une ellipse avec 2 axes principaux. vous indique ensuite à quel point cette ellipse est "plate", c'est-à-dire qu'elle est une mesure du rapport entre la longueur du plus grand axe et la longueur du plus petit axe principal. Avec 3 prédicteurs, vous pourriez avoir une forme de cigare et 3 axes principaux. Plus votre nuage de données est "plat" dans une certaine direction, plus les variables sont redondantes lorsqu'elles sont prises ensemble.κκκ
Il existe quelques règles générales pour les valeurs non critiques de (j'ai entendu moins de 20). Mais sachez que n'est pas invariant dans les transformations de données qui changent simplement l'unité des variables - comme la standardisation. C'est différent de VIF: vous donnera le même résultat que (tant qu'il n'y a pas de termes multiplicatifs dans le modèle), mais et différera presque sûrement.κκκvif(lm(y ~ x1 + x2))
vif(lm(scale(y) ~ scale(x1) + scale(x2)))
kappa(lm(y ~ x1 + x2))
kappa(lm(scale(y) ~ scale(x1) + scale(x2)))