L'ACP est-elle instable en multicolinéarité?

Je sais que dans une situation de régression, si vous avez un ensemble de variables hautement corrélées, cela est généralement "mauvais" en raison de l'instabilité des coefficients estimés (la variance va vers l'infini car le déterminant va vers zéro).

Ma question est de savoir si cette «méchanceté» persiste dans une situation de PCA. Les coefficients / charges / poids / vecteurs propres pour un PC particulier deviennent-ils instables / arbitraires / non uniques lorsque la matrice de covariance devient singulière? Je m'intéresse particulièrement au cas où seule la première composante principale est conservée, et toutes les autres sont rejetées comme "bruit" ou "autre chose" ou "sans importance".

Je ne pense pas que ce soit le cas, car il vous restera juste quelques composants principaux qui ont une variance nulle ou proche de zéro.

Facile à voir, ce n'est pas le cas dans le cas extrême simple avec 2 variables - supposons qu'elles soient parfaitement corrélées. Ensuite, le premier PC sera la relation linéaire exacte, et le deuxième PC sera perpindiculaire au premier PC, avec toutes les valeurs de PC égales à zéro pour toutes les observations (c.-à-d. Variance nulle). Vous vous demandez si c'est plus général.

pca multicollinearity

— probabilitéislogique
source

Votre raisonnement est bon. En fait, on pourrait s'attendre à ce que l'instabilité se produise lorsque deux ou plusieurs valeurs propres sont presque coïncidentes, car alors, bien que les valeurs propres soient déterminées, les vecteurs propres ne le sont pas, et donc les chargements non plus. Pour des raisons numériques, il existe également une instabilité des valeurs propres (et des vecteurs propres) qui sont de très petite taille par rapport à la valeur propre maximale.

— whuber

@whuber comment répond à votre question, mais je voudrais noter qu'en cas de 2 variables parfaitement corrélées, le PCA ne devrait pas avoir de problèmes. La matrice de covariance serait de rang 1, il n'y aura donc qu'une seule valeur propre non nulle, donc un seul PC. Les variables d'origine seront les multiples de ce PC. Le seul problème peut être la stabilité numérique.

— mpiktas

En fait, je pense que votre situation serait pire si vous aviez des variables moyennement corrélées que si vous aviez des variables très fortement corrélées. Numériquement également, si vous utilisez un algorithme comme NIPALS qui supprime les PC dans l'ordre

— JMS

Une chose - «hautement corrélé» et «colinéaire» ne sont pas les mêmes. S'il y a plus de 2 variables impliquées, la colinéarité n'implique pas de corrélation.

— Peter Flom - Réintègre Monica

Réponses:

La réponse pourrait être donnée en termes encore plus simples: la régression multiple a un pas de plus que le pca si elle est vue en termes d'algèbre linéaire, et à partir de la deuxième étape l'instabilité prend naissance:

La première étape de pca et mult. la régression peut être considérée comme une factorisation de la matrice de corrélation en deux facteurs cholesky , qui sont triangulaires - et qui est indifférent aux corrélations faibles ou élevées. (Le pca peut alors être vu comme une rotation de ce facteur cholesky (triangulaire) vers la position pc (ceci est appelé Jacobi-rotation pour autant que je m'en souvienne) $R$ $L \cdot L^t$

Le mult. la procédure de régression consiste à appliquer une inversion de ce facteur cholesky moins la ligne et la colonne de la variable dépendante, qui se trouve commodément dans la dernière ligne de la matrice de corrélation. L'instabilité entre en jeu ici: si les variables indépendantes sont fortement corrélées, alors la diagonale du facteur cholesky peut dégénérer en de très petites valeurs numériques - et inverser cela introduit alors le problème de la division par presque zéro. $L$
$L$

— Heaumes Gottfried
source

C'est à peu près ce que je cherchais. En fait, avoir lu votre réponse me fait penser à une autre explication: les rotations sont numériquement stables, quel que soit le déterminant de la matrice de covariance / corrélation. Et comme l'ACP peut être définie comme trouvant la meilleure rotation de l'axe des coordonnées, elle sera également stable numériquement.

— probabilityislogic

Oui, par exemple dans les "fondements de l'analyse factorielle" de Stan Mulaik, la stabilité de la rotation pc (méthode Jacobi) a été explicitement mentionnée, si je me souviens bien de la source. Dans ma propre implémentation de l'analyse factorielle, je fais tout après cholesky par rotation: PCA, Varimax, même le «factoring d'axe principal» (PAF dans SPSS) peut être reconstruit sur la base des rotations. Si la régression mult est basée sur le facteur cholesky L et que la partie de L qui contient les variables indépendantes est en position PC, alors la multicolinéarité peut encore mieux être contrôlée.

— Gottfried Helms

L'ACP est souvent un moyen pour atteindre des fins; menant à soit des entrées à une régression multiple, soit à utiliser dans une analyse en grappes. Je pense que dans votre cas, vous parlez d'utiliser les résultats d'une ACP pour effectuer une régression.

Dans ce cas, votre objectif de réaliser une ACP est de se débarrasser de la multicolinéarité et d'obtenir des entrées orthogonales pour une régression multiple, sans surprise cela s'appelle la régression des composants principaux. Ici, si toutes vos entrées d'origine étaient orthogonales, faire une PCA vous donnerait un autre ensemble d'entrées orthogonales. Par conséquent; si vous faites une PCA, on supposerait que vos entrées ont une multicolinéarité.

$\hat{ \lambda_{i} }$ $i^{th}$ $\frac{ \hat{ \lambda_{i} } }{p}$

Les références

Johnson et Wichern (2001). Analyse statistique multivariée appliquée (6e édition). Prentice Hall.

— schenectady
source

Je ne suis pas sûr que l'OP soit après la PCR. L'ACP est également un bon moyen de résumer des ensembles de données multivariés (pas nécessairement pour effectuer une réduction des données pour une utilisation ultérieure dans un cadre de modélisation), c'est-à-dire rapprocher la matrice VC d'un ordre inférieur tout en conservant la plupart des informations. La question semble être la suivante: ai-je raison d'interpréter les premières valeurs propres et PC (comme des combinaisons linéaires des variables d'origine) même s'il y a eu des effets de colinéarité? Votre réponse ne semble pas répondre directement à la question du PO.

— chl

bonne réponse sur PCA en général, mais qu'en est-il lorsque PCA est le produit final ? Autrement dit, l'objectif est de produire un seul PC. @Chl a raison sur son argent avec son interprétation de la question

— probabilitéislogic

@chl Quelle est votre réponse à la question: "Ai-je raison lors de l'interprétation des premières valeurs propres et des PC même s'il y a eu des effets de colinéarité?" Je demande parce que j'essaie de comprendre quand est-ce une bonne idée de conserver des variables hautement corrélées lors de la réduction de dimensionnalité. Parfois, lorsque nous savons par théorie que deux variables sont entraînées par les mêmes variables latentes, vous devez supprimer l'une des variables pour ne pas compter deux fois l'effet de la variable latente. J'essaie de réfléchir quand il est correct de conserver les variables corrélées.

— Amatya