Belsley, Kuh et Welsch est le texte à consulter pour ce genre de question. Ils incluent une discussion approfondie des diagnostics plus anciens dans une section intitulée "Perspective historique". Concernant VIF, ils écrivent
... Si nous supposons que le données ont été centrées et mis à l' échelle pour avoir une longueur unitaire, la matrice de corrélation est simplement . ...XRX′X
Nous considérons . Les éléments diagonaux de , les , sont souvent appelés les facteurs d'inflation de la variance, , et leur valeur diagnostique découle de la relation où est le coefficient de corrélation multiple de régressé sur les autres variables explicatives. Clairement, un VIF élevé indique un proche de l'unité, et donc pointe vers la colinéarité. Cette mesure est donc d'une certaine utilité comme indication globale de colinéarité. Ses faiblesses, comme celles deR−1=(X′X)−1R−1riiVIFi
VIFi=11−R2i
R2iXiR2iR, résident dans son incapacité à faire la distinction entre plusieurs dépendances proches coexistantes et dans l’absence de frontière significative pour distinguer les valeurs de VIF qui peuvent être considérées comme élevées et celles qui peuvent être considérées comme faibles.
Au lieu d'analyser (ou ), FMB propose un examen attentif, contrôlé de la décomposition de la valeur Singulier . Ils le motivent en démontrant que le rapport des valeurs singulières les plus grandes aux plus petites est le nombre de conditions de et montrent comment le nombre de conditions fournit des limites (parfois serrées) sur la propagation des erreurs de calcul dans le calcul des estimations de régression. Ils tentent ensuite une décomposition approximative des variances des estimations des paramètres en composantes associées aux valeurs singulières. Le pouvoir de cette décomposition réside dans sa capacité (dans de nombreux cas) à révéler la natureRR−1XXβ^i de la colinéarité, plutôt que de simplement indiquer sa présence.
Quiconque a construit des modèles de régression avec des centaines de variables appréciera cette fonctionnalité! C'est une chose pour le logiciel de dire "vos données sont colinéaires, je ne peux pas continuer" ou même de dire "vos données sont colinéaires, je jette les variables suivantes". C'est tout à fait beaucoup plus utile pour lui de pouvoir dire "le groupe de variables cause des instabilités dans les calculs: voyez laquelle de ces variables vous pouvez faire sans ou considérer effectuer une analyse des principaux composants pour réduire leur nombre. "Xi1,…,Xik
En fin de compte, BKW recommande de diagnostiquer la colinéarité au moyen de
... la double condition suivante:
- Une valeur singulière jugée avoir un indice de condition élevé, et qui est associée à
- Proportions de décomposition-variance élevées pour au moins deux variances de coefficient de régression estimées.
Le nombre d'indices de condition jugés importants (disons, supérieurs à ) dans (1) identifie le nombre de quasi-dépendances parmi les colonnes de la matrice de données , et les amplitudes de ces indices de condition élevée fournissent une mesure de leur "étanchéité relative". " De plus, la détermination en (2) de proportions de décomposition-variance importantes (disons, supérieures à ) associées à chaque indice de condition élevée identifie les variables impliquées dans la quasi-dépendance correspondante, et l'ampleur de ces proportions en conjonction avec la forte l'indice de condition fournit une mesure du degré auquel l'estimation de régression correspondante a été dégradée par la présence de colinéarité.30X0.5