Quelle est l'explication intuitive de la façon dont l'ACP passe d'un problème géométrique (avec des distances) à un problème d'algèbre linéaire (avec des vecteurs propres)?

54

J'ai beaucoup lu sur la PCA, y compris divers tutoriels et questions (comme celle-ci , celle-ci , celle-ci et celle-ci ).

Le problème géométrique que PCA essaie d’optimiser m’est clair: PCA essaie de trouver le premier composant principal en minimisant l’erreur de reconstruction (projection), ce qui maximise simultanément la variance des données projetées.

Lorsque j'ai lu cela pour la première fois, j'ai immédiatement pensé à quelque chose comme une régression linéaire; vous pouvez peut-être résoudre le problème en utilisant une descente de pente si nécessaire.

Cependant, mon esprit a été stupéfait quand j'ai lu que le problème d'optimisation est résolu en utilisant l'algèbre linéaire et en recherchant des vecteurs propres et des valeurs propres. Je ne comprends tout simplement pas comment cet usage de l’algèbre linéaire entre en jeu.

Ma question est donc la suivante: comment l’ACP peut-elle passer d’un problème d’optimisation géométrique à un problème d’algèbre linéaire? Quelqu'un peut-il fournir une explication intuitive?

Je ne cherche pas une réponse comme celle-ci qui indique: "Lorsque vous résolvez le problème mathématique de l'ACP, cela revient à trouver les valeurs propres et les vecteurs propres de la matrice de covariance." Veuillez expliquer pourquoi les vecteurs propres sont les composantes principales et pourquoi les valeurs propres sont la variance des données projetées sur celles-ci.

Je suis un ingénieur en logiciel et pas un mathématicien, d'ailleurs.

Remarque: la figure ci-dessus a été prise et modifiée à partir de ce tutoriel de la PCA .

— stackoverflowuser2010
source

2

Dans le long fil derrière votre premier lien, il y a la réponse de @ amoeba avec animation, ce qui explique l'essentiel. PCA est la rotation des axes de données (colonnes) jusqu'à ce qu'ils soient décorrélés en tant que vecteurs de données (variables). Cette matrice de rotation est trouvée via une composition eigend ou une décomposition en valeurs singulières et est appelée matrice de vecteurs propres.

— Heures

2

De plus, même si vous n'êtes pas mathématicien (je ne suis pas trop), vous avez probablement entendu parler de l'algèbre linéaire et la géométrie euclidienne sont des domaines intimement liés des mathématiques; ils sont même étudiés ensemble en tant que discipline appelée géométrie analytique.

— ttnphns

1

optimization problemOui, je crois que le problème de la PCA pourrait être résolu via des approches d'optimisation (itératives, convergentes). Mais comme il a une solution de forme fermée via maths, pourquoi ne pas utiliser cette solution plus simple et efficace?

— ttnphns

Vous demandez à provide an intuitive explanation. Je me demande pourquoi la réponse intuitive et claire de l'amibe, à laquelle je suis lié, ne vous convient pas. Vous demandez _why_ eigenvectors come out to be the principal components...pourquoi? Par définition! Les vecteurs propres sont les directions principales d'un nuage de données.

— ttnphns

6

@ttnphns: Je pense en fait que la question est raisonnable. Voici comment je le comprends. PCA veut trouver la direction de la variance maximale de la projection. Cette direction est appelée (par définition) la première direction principale. D'autre part, un vecteur propre de la matrice de covariance

est (par définition) un tel vecteur

que

. Alors, pourquoi la première direction principale est-elle donnée par le vecteur propre ayant la plus grande valeur propre? Quelle est l'intuition ici? Ce n'est certainement pas par définition. J'y ai réfléchi et je sais comment le prouver, mais c'est difficile à expliquer de manière intuitive.

C

$C$

w

$w$

C w = λ w

$Cw=\lambda w$

— amibe dit de réintégrer Monica

54

Déclaration du problème

Le problème géométrique que PCA essaie d’optimiser m’est clair: PCA essaie de trouver le premier composant principal en minimisant l’erreur de reconstruction (projection), ce qui maximise simultanément la variance des données projetées.

C'est vrai. J'explique le lien entre ces deux formulations dans ma réponse ici (sans math) ou ici (avec des maths).

$\mathbf C$ $\mathbf w$ $\|\mathbf w\|=1$ $\mathbf w^\top \mathbf{Cw}$

(Juste au cas où cela ne serait pas clair: si est la matrice de données centrée, alors la projection est donnée par et sa variance est .) $\mathbf X$ $\mathbf{Xw}$ $\frac{1}{n-1}(\mathbf{Xw})^\top \cdot \mathbf{Xw} = \mathbf w^\top\cdot (\frac{1}{n-1}\mathbf X^\top\mathbf X)\cdot \mathbf w = \mathbf w^\top \mathbf{Cw}$

Par ailleurs, un vecteur propre de est, par définition, tout vecteur tel que . $\mathbf C$ $\mathbf v$ $\mathbf{Cv}=\lambda \mathbf v$

Il s'avère que la première direction principale est donnée par le vecteur propre ayant la plus grande valeur propre. C'est une déclaration non triviale et surprenante.

Preuves

Si l’on ouvre un livre ou un tutoriel sur la PCA, on peut y trouver la preuve suivante, presque une ligne, de la déclaration ci-dessus. Nous voulons maximiser sous la contrainte que ; cela peut être fait en introduisant un multiplicateur de Lagrange et en maximisant ; en différenciant, on obtient , qui est l’équation du vecteur propre. On voit que doit en fait être la plus grande valeur propre en substituant cette solution à la fonction objective, ce qui donne $\mathbf w^\top \mathbf{Cw}$ $\|\mathbf w\|=\mathbf w^\top \mathbf w=1$ $\mathbf w^\top \mathbf{Cw}-\lambda(\mathbf w^\top \mathbf w-1)$ $\mathbf{Cw}-\lambda\mathbf w=0$ $\lambda$ $\mathbf w^\top \mathbf{Cw}-\lambda(\mathbf w^\top \mathbf w-1) = \mathbf w^\top \mathbf{Cw} = \lambda\mathbf w^\top \mathbf{w} = \lambda$ . En raison du fait que cette fonction objectif doit être maximisée, doit être la plus grande valeur propre, QED. $\lambda$

Cela a tendance à ne pas être très intuitif pour la plupart des gens.

Une meilleure preuve (voir par exemple cette réponse soignée de @ cardinal ) dit que, puisque est une matrice symétrique, elle est diagonale dans sa base de vecteur propre. (Ceci est en fait appelé théorème spectral .) On peut donc choisir une base orthogonale, à savoir celle donnée par les vecteurs propres, où est diagonal et a des valeurs propres sur la diagonale. Dans cette base, simplifie en , ou en d'autres termes, la variance est donnée par la somme pondérée des valeurs propres. Il est presque immédiat que pour maximiser cette expression, il suffit de prendre $\mathbf C$ $\mathbf C$ $\lambda_i$ $\mathbf w^\top \mathbf{C w}$ $\sum \lambda_i w_i^2$ $\mathbf w = (1,0,0,\ldots, 0)$ , c’est-à-dire le premier vecteur propre, générant une variance (s’écarter de cette solution et "échanger" des parties de la plus grande valeur propre pour les parties de valeurs plus petites ne fera que réduire la variance globale). Notez que la valeur de ne dépend pas de la base! Passer à la base de vecteur propre équivaut à une rotation. En 2D, on peut donc imaginer simplement faire tourner un morceau de papier avec le diagramme de dispersion; évidemment cela ne peut changer aucun écart. $\lambda_1$ $\mathbf w^\top \mathbf{C w}$

Je pense que cet argument est très intuitif et très utile, mais il repose sur le théorème spectral. Je pense donc que la vraie question est la suivante: quelle est l’intuition qui se cache derrière le théorème spectral?

Théorème spectral

Prenez une matrice symétrique . Prenons son vecteur propre avec la plus grande valeur propre . Faites de ce vecteur propre le premier vecteur de base et choisissez d'autres vecteurs de base de manière aléatoire (de sorte qu'ils soient tous orthonormés). À quoi ressemblera dans cette base? $\mathbf C$ $\mathbf w_1$ $\lambda_1$ $\mathbf C$

Il aura dans le coin supérieur gauche, parce que dans cette base et doit être égal à . $\lambda_1$ $\mathbf w_1=(1,0,0\ldots 0)$ $\mathbf {Cw}_1=(C_{11}, C_{21}, \ldots C_{p1})$ $\lambda_1\mathbf w_1 = (\lambda_1,0,0 \ldots 0)$

Par le même argument, il y aura des zéros dans la première colonne sous le . $\lambda_1$

Mais comme il est symétrique, il aura aussi des zéros dans la première ligne après . Donc ça va ressembler à ça: $\lambda_1$

C = (\begin{matrix} λ_{1} & 0 & \dots & 0 \\ 0 \\ ⋮ \\ 0 \end{matrix}),

$\mathbf C=\begin{pmatrix}\lambda_1 & 0 & \ldots & 0 \\ 0 & & & \\ \vdots & & & \\ 0 & & & \end{pmatrix},$

où espace vide signifie qu'il y a un bloc d'éléments. Parce que la matrice est symétrique, ce bloc sera également symétrique. Nous pouvons donc lui appliquer exactement le même argument, en utilisant efficacement le deuxième vecteur propre en tant que deuxième vecteur de base, et en obtenant et sur la diagonale. Cela peut continuer jusqu'à ce que soit diagonal. C'est essentiellement le théorème spectral. (Notez comment cela fonctionne uniquement parce que est symétrique.) $\lambda_1$ $\lambda_2$ $\mathbf C$ $\mathbf C$

Voici une reformulation plus abstraite du même argument.

Nous savons que , le premier vecteur propre définit donc un sous-espace à une dimension dans lequel agit comme une multiplication scalaire. Prenons maintenant tout vecteur orthogonal à . Ensuite, il est presque immédiat que soit également orthogonal à . En effet: $\mathbf{Cw}_1 = \lambda_1 \mathbf w_1$ $\mathbf C$ $\mathbf v$ $\mathbf w_1$ $\mathbf {Cv}$ $\mathbf w_1$

w_{1}^{⊤} C v = (w_{1}^{⊤} C v)^{⊤} = v^{⊤} C^{⊤} w_{1} = v^{⊤} {C w}_{1} = λ_{1} v^{⊤} w_{1} = λ_{1} \cdot 0 = 0.

$\mathbf w_1^\top \mathbf{Cv} = (\mathbf w_1^\top \mathbf{Cv})^\top = \mathbf v^\top \mathbf C^\top \mathbf w_1 = \mathbf v^\top \mathbf {Cw}_1=\lambda_1 \mathbf v^\top \mathbf w_1 = \lambda_1\cdot 0 = 0.$

Cela signifie que agit sur tout le sous-espace restant orthogonal à sorte qu'il reste séparé de . C'est la propriété cruciale des matrices symétriques. Ainsi, nous pouvons y trouver le plus grand vecteur propre, , et procéder de la même manière, en construisant finalement une base orthonormée de vecteurs propres. $\mathbf C$ $\mathbf w_1$ $\mathbf w_1$ $\mathbf w_2$

— l'amibe dit de réintégrer Monica
source

"Multiplicateur de Lagrange" est vraiment clair pour moi. Cependant, pourriez-vous me dire pourquoi nous avons besoin d'une contrainte de longueur d'unité? Merci

— Haitao Du

2

@ hxd1011 Il y a déjà exactement cette question ici, mais brièvement: c'est parce que sinon vous pouvez multiplier par n'importe quel nombre et augmentera du carré de ce nombre. Le problème devient alors mal défini: le maximum de cette expression est infini. En fait, la variance de la projection sur la direction de est que si est l'unité de longueur.

w

$w$

w^{⊤} C w

$w^\top Cw$

w

$w$

w^{⊤} C w

$w^\top Cw$

w

$w$

— amibe dit de réintégrer Monica

Je suppose que pourrait être un peu plus familier à la plupart des lecteurs; Je l'ai remplacé ici. Merci.

n - 1

$n-1$

— amibe dit de réintégrer Monica

@ amoeba: Merci pour la réponse. Je suis dérouté par certaines de vos notes. Vous utilisez w pour indiquer le vecteur de longueur unitaire qui se révèle être le premier vecteur propre (composante principale). Lorsque je lance PCA dans R (par exemple prcomp(iris[,1:4], center=T, scale=T)), je vois des vecteurs propres de longueur unité avec un groupe de flotteurs comme (0.521, -0.269, 0.580, 0.564). Cependant, dans votre réponse sous "Preuves", vous écrivez Il est presque immédiat que pour maximiser cette expression, il suffit de prendre w = (1,0,0,…, 0), c’est-à-dire le premier vecteur propre . Pourquoi le vecteur propre de votre preuve a-t-il l'air si bien formé?

— stackoverflowuser2010

1

Bonjour @ user58865, merci pour le coup de pouce: j'ai tout simplement oublié de répondre pour la première fois. Le mince est, est un scalaire - c'est juste un nombre. Tout nombre est "symétrique" :) et est égal à sa transposition. Est-ce que ça fait du sens?

w_{1}^{⊤} C v

$w^\top_1 C v$

— Amibe dit de réintégrer Monica

5

Eckart et Young ont publié un résultat datant de 1936 ( https://ccrma.stanford.edu/~dattorro/eckart%26young.1936.pdf ), qui indique ce qui suit:

$\sum_1^r d_k u_k v_k^T = arg min_{\hat{X} \epsilon M(r)} ||X-\hat{X}||_F^2$

où M (r) est l'ensemble des matrices de rang-r, ce qui signifie fondamentalement que les premières composantes de la SVD de X donnent la meilleure approximation de X sur la matrice de bas rang et que le meilleur est défini en termes de la norme de Frobenius au carré - la somme du carré éléments d'une matrice.

Il s’agit d’un résultat général pour les matrices et, à première vue, n’a rien à voir avec les ensembles de données ou la réduction de la dimensionnalité.

Cependant, si vous ne pensez pas à tant que matrice mais aux colonnes de la matrice représentant des vecteurs de points de données, est l'approximation avec l'erreur de représentation minimale en termes de différences d'erreur au carré. $X$ $X$ $\hat{X}$

— Cagdas Ozgenc
source

4

Ceci est mon point de vue sur l'algèbre linéaire derrière PCA. En algèbre linéaire, l'un des théorèmes clés est le . Si S est une matrice symétrique n par n avec des coefficients réels, S a n vecteurs propres, toutes les valeurs propres étant réelles. Cela signifie que nous pouvons écrire avec D une matrice diagonale avec des entrées positives. C'est et il n'y a aucun mal à supposer que . A est la matrice de changement de base. C'est-à-dire que si notre base d'origine était , alors par rapport à la base donnée par $\textit{Spectral Theorem}$ $S = ADA^{-1}$ $D = \mbox{diag} (\lambda_1, \lambda_2, \ldots, \lambda_n)$ $\lambda_1 \geq \lambda_2 \geq \ldots \geq \lambda_n$ $x_1,x_2, \ldots, x_n$ $A(x_1), A(x_2), \ldots A(x_n)$ , l'action de S est diagonale. Cela signifie également que le peut être considéré comme une base orthogonale avec Si notre matrice de covariance était pour n observations de n variables, nous aurions terminé. La base fournie par est la base de la PCA. Cela découle des faits de l'algèbre linéaire. En substance, il est vrai qu’une base PCA est une base de vecteurs propres et qu’il existe au plus n vecteurs propres d’une matrice carrée de taille n. Bien sûr, la plupart des matrices de données ne sont pas carrées. Si X est une matrice de données avec n observations de p variables, alors X est de taille n par p. Je supposerai que (plus d'observations que de variables) et que $A(x_i)$ $||A(x_i)|| = \lambda_i$ $A(x_i)$
$n>p$ $rk(X) = p$ (toutes les variables sont linéairement indépendantes). Aucune hypothèse n'est nécessaire, mais cela aidera avec l'intuition. L'algèbre linéaire a une généralisation du théorème spectral appelée décomposition en valeurs singulières. Pour un tel X, il est indiqué que avec U, V matrices orthonormales (carrées) de taille n et p et une matrice diagonale réelle avec uniquement des valeurs non négatives. entrées sur la diagonale. De nouveau, nous pouvons réorganiser la base de V pour que en termes de matrice, cela signifie que si et si . Le $X = U \Sigma V^{t}$ $\Sigma = (s_{ij})$ $s_{11} \geq s_{22} \geq \ldots s_{pp}> 0$ $X(v_i) = s_{ii} u_i$ $i \leq p$ $s_{ii} = 0$ $i> n$ $v_i$ donner la décomposition PCA. Plus précisément est la décomposition PCA. Pourquoi? Encore une fois, l'algèbre linéaire dit qu'il ne peut y avoir que des vecteurs propres. La SVD donne de nouvelles variables (données par les colonnes de V) qui sont orthogonales et ont une norme décroissante. $\Sigma V^{t}$

— Aginensky
source

4

"qui maximise simultanément la variance des données projetées." Avez-vous entendu parler du quotient de Rayleigh ? Peut-être que c'est une façon de voir cela. À savoir le quotient de Rayleigh de la matrice de covariance vous donne la variance des données projetées. (et la page wiki explique pourquoi les vecteurs propres maximisent le quotient de Rayleigh)

— seanv507
source

1

@amoeba donne une formalisation soignée et une preuve de:

Nous pouvons le formaliser comme suit: étant donné la matrice de covariance C, nous cherchons un vecteur w de longueur unitaire, w‖ = 1, tel que w ^T Cw soit maximal.

Mais je pense qu’il existe une preuve intuitive pour:

Il s'avère que la première direction principale est donnée par le vecteur propre ayant la plus grande valeur propre. C'est une déclaration non triviale et surprenante.

On peut interpréter w ^T Cw comme un produit scalaire entre le vecteur w et Cw, obtenu en passant par la transformation C:

w ^T Cw = ‖w‖ * Cw‖ * cos (w, Cw)

Puisque w a une longueur fixe, pour maximiser w ^T Cw, il faut:

maximiser ‖Cw‖
maximiser cos (w, Cw)

Il s'avère que si nous prenons w comme vecteur propre de C avec la plus grande valeur propre, nous pouvons archiver les deux simultanément:

‖Cw‖ est max (si w dévie de ce vecteur propre, décomposez-le le long de vecteurs propres orthogonaux, vous devriez voir une diminution de ‖Cw‖.)
w et Cw dans la même direction, cos (w, Cw) = 1, max

Puisque les vecteurs propres sont orthogonaux, ils forment avec les autres vecteurs propres de C un ensemble de composantes principales de X.

preuve de 1

décomposite w en vecteur propre orthogonal primaire et secondaire v1 et v2 , supposons que leur longueur est respectivement v1 et v2. nous voulons prouver

(λ ₁ w) ² > ((λ ₁ v1) ² + (λ ₂ v2) ² )

depuis λ ₁ > λ ₂ , on a

((λ ₁ v1) ² + (λ ₂ v2) ² )

<((λ ₁ v1) ² + (λ ₁ v2) ² )

= (λ ₁ ) ² * (v1 ² + v2 ² )

= (λ ₁ ) ² * w ²

— Ciel
source