Y a-t-il une raison de préférer une mesure spécifique de la multicolinéarité?

Lorsque nous travaillons avec de nombreuses variables d'entrée, nous nous préoccupons souvent de la multicolinéarité . Il existe un certain nombre de mesures de la multicolinéarité qui sont utilisées pour détecter, réfléchir et / ou communiquer la multicolinéarité. Voici quelques recommandations courantes:

Le multiple pour une variable particulière $R^2_j$
La tolérance, , pour une variable particulière $1-R^2_j$
Le facteur d'inflation de la variance, , pour une variable particulière $\text{VIF}=\frac{1}{\text{tolerance}}$
Le numéro de condition de la matrice de conception dans son ensemble:

$\sqrt{\frac{max (valeur propre (X'X))}{min (valeur propre (X'X))}}$ $\sqrt{\frac{\text{max(eigenvalue(X'X))}}{\text{min(eigenvalue(X'X))}}}$

(Il y a d'autres options discutées dans l'article Wikipedia, et ici sur SO dans le contexte de R.)

Le fait que les trois premiers soient parfaitement fonctionnels les uns des autres suggère que le seul avantage net possible entre eux serait psychologique. D'un autre côté, les trois premiers vous permettent d'examiner les variables individuellement, ce qui pourrait être un avantage, mais j'ai entendu dire que la méthode du nombre de conditions est considérée comme la meilleure.

Est-ce vrai? Le mieux pour quoi?
Le numéro de condition est-il une fonction parfaite des ? (Je pense que ce serait.) $R^2_j$
Les gens trouvent-ils que l'un d'eux est le plus facile à expliquer? (Je n'ai jamais essayé d'expliquer ces chiffres en dehors des cours, je donne juste une description lâche et qualitative de la multicolinéarité.)

multicollinearity

— gung - Réintégrer Monica
source

J'ai posté une question de suivi connexe, avec des réponses qui complètent ce qui est déjà ici: stats.stackexchange.com/questions/173665/…

— kyrenia

À la fin des années 1990, j'ai fait ma thèse sur la colinéarité.

Ma conclusion était que les indices de condition étaient les meilleurs.

La raison principale était que, plutôt que de regarder des variables individuelles , cela vous permet de regarder des ensembles de variables. Puisque la colinéarité est fonction d'ensembles de variables, c'est une bonne chose.

De plus, les résultats de mon étude de Monte Carlo ont montré une meilleure sensibilité à la colinéarité problématique, mais j'ai depuis longtemps oublié les détails.

$R^2$

Pour en savoir plus à ce sujet, consultez les livres de David Belsley. Ou, si vous le voulez vraiment, vous pouvez obtenir ma thèse Diagnostic de multicolinéarité pour la régression multiple: une étude de Monte Carlo

— Peter Flom - Réintégrer Monica
source

Alors, l'idée ici qu'en regardant les VIF, vous pourriez conclure à tort que la multicolinéarité n'est pas un problème, mais si vous aviez regardé le numéro de condition, vous auriez été plus susceptible de tirer la bonne conclusion? Peut-être quelque chose comme un test avec une plus grande puissance statistique?

— gung - Rétablir Monica

+1. Heureusement, pour expliquer le numéro de condition, nous avons déjà un fil conducteur sur ce site: c'est la distorsion maximale trouvée dans la description de second ordre des variables de conception sous forme de nuage de points. Plus la distorsion est importante, plus les points ont tendance à se situer dans un sous-espace. Cette compréhension géométrique montre également pourquoi le conditionnement d'une matrice de conception centrée est meilleur que celui de la matrice de conception brute elle-même.

— whuber

Eh bien, il est difficile de définir exactement quelle est la «bonne» conclusion; mais cela devrait avoir quelque chose à voir avec de petits changements dans les données produisant de grands changements dans la sortie. Si je me souviens bien, les indices de condition étaient plus directement liés à cela. Mais l'essentiel était d'obtenir les proportions de variance, qui vous permettaient de voir des ensembles de variables et le degré de leur colinéarité. (Bien sûr, tout cela était il y a 14 ans ... mais je ne pense pas que les choses aient changé. Les mesures sont les mêmes. Mais ma mémoire n'est peut-être pas parfaite).

— Peter Flom - Réintègre Monica

Gung, un point clé ici est que le numéro de condition est indépendant des coordonnées: il reste inchangé sous les recombinaisons linéaires (orthogonales) des données. Ainsi, il ne peut rien exprimer sur les variables individuelles, mais il doit capturer une propriété de la collection entière. En l'utilisant, vous vous isolez ainsi partiellement de la manière dont vos variables s'expriment.

— whuber

J'ai été trop submergé pour terminer votre thèse, mais cela a été vraiment utile jusqu'à présent. Merci encore.

— gung - Rétablir Monica