Pourquoi l'APC est-elle sensible aux valeurs aberrantes?


26

Il existe de nombreux articles sur cette SE qui discutent des approches robustes de l'analyse en composantes principales (ACP), mais je ne trouve pas une seule bonne explication de la raison pour laquelle l' ACP est sensible aux valeurs aberrantes en premier lieu.


5
Parce que la contribution à la norme L2 est très élevée pour les valeurs aberrantes. Ensuite, lors de la minimisation de la norme L2 (ce que PCA essaie de faire), ces points seront plus difficiles à ajuster que les points plus proches de la moyenne.
mathreadler

Réponses:


35

L'une des raisons est que l'ACP peut être considérée comme une décomposition de bas rang des données qui minimise la somme des normes des résidus de la décomposition. C'est-à-dire si est vos données ( vecteurs de dimensions), et est la base PCA ( vecteurs de dimensions), alors la décomposition minimisera strictement Ici A est la matrice des coefficients de décomposition PCA et \ lVert \ cdot \ rVert_F est une norme Frobenius de la matriceL2YmnXkn

YXAF2=j=1mYjXAj.2
AF

Parce que l'ACP minimise les normes L2 (c'est-à-dire les normes quadratiques), elle a les mêmes problèmes de moindres carrés ou d'ajustement d'un gaussien en étant sensible aux valeurs aberrantes. En raison de la quadrature des écarts par rapport aux valeurs aberrantes, ils domineront la norme totale et entraîneront donc les composants de l'ACP.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.