Lorsque nous travaillons avec de nombreuses variables d'entrée, nous nous préoccupons souvent de la multicolinéarité . Il existe un certain nombre de mesures de la multicolinéarité qui sont utilisées pour détecter, réfléchir et / ou communiquer la multicolinéarité. Voici quelques recommandations courantes:
- Le multiple pour une variable particulière
- La tolérance, , pour une variable particulière
- Le facteur d'inflation de la variance, , pour une variable particulière
Le numéro de condition de la matrice de conception dans son ensemble:
(Il y a d'autres options discutées dans l'article Wikipedia, et ici sur SO dans le contexte de R.)
Le fait que les trois premiers soient parfaitement fonctionnels les uns des autres suggère que le seul avantage net possible entre eux serait psychologique. D'un autre côté, les trois premiers vous permettent d'examiner les variables individuellement, ce qui pourrait être un avantage, mais j'ai entendu dire que la méthode du nombre de conditions est considérée comme la meilleure.
- Est-ce vrai? Le mieux pour quoi?
- Le numéro de condition est-il une fonction parfaite des ? (Je pense que ce serait.)
- Les gens trouvent-ils que l'un d'eux est le plus facile à expliquer? (Je n'ai jamais essayé d'expliquer ces chiffres en dehors des cours, je donne juste une description lâche et qualitative de la multicolinéarité.)