Imaginez un grand dîner en famille, où tout le monde commence à vous poser des questions sur la PCA. D'abord, vous l'expliquez à votre arrière-grand-mère; alors à toi grand-mère; ensuite à ta mère; ensuite à votre conjoint; enfin, à votre fille (qui est mathématicienne). Chaque fois, la personne suivante est moins profane. Voici comment la conversation pourrait se dérouler.
Arrière-grand-mère: J'ai entendu dire que vous étudiez "Pee-See-Ay". Je me demande ce que c'est...
Vous: Ah, c'est juste une méthode pour résumer certaines données. Regardez, nous avons quelques bouteilles de vin debout ici sur la table. Nous pouvons décrire chaque vin par sa couleur, sa force, son âge, etc. (voir cette très belle visualisation des propriétés du vin prises ici ). Nous pouvons composer toute une liste de caractéristiques différentes de chaque vin de notre cave. Mais beaucoup d'entre eux mesureront des propriétés connexes et seront donc redondants. Si tel est le cas, nous devrions pouvoir résumer chaque vin avec moins de caractéristiques! C'est ce que fait la PCA.
Grand-mère: C'est intéressant! Donc, cette chose PCA vérifie quelles caractéristiques sont redondantes et les rejette?
Vous: Excellente question, mamie! Non, la PCA ne sélectionne pas certaines caractéristiques et ne rejette pas les autres. Au lieu de cela, il construit de nouvelles caractéristiques qui s'avèrent bien résumer notre liste de vins. Bien entendu, ces nouvelles caractéristiques sont construites à l'aide des anciennes. par exemple, une nouvelle caractéristique peut être calculée comme étant l'âge du vin moins le niveau d'acidité du vin ou une autre combinaison de ce type (nous les appelons combinaisons linéaires ).
En fait, PCA trouve les meilleures caractéristiques possibles, celles qui résument la liste des vins aussi bien que possible (parmi toutes les combinaisons linéaires imaginables). C'est pourquoi c'est si utile.
Mère: Hmmm, ça sonne bien, mais je ne suis pas sûr de comprendre. Que voulez-vous dire en réalité lorsque vous dites que ces nouvelles caractéristiques de la PCA "résument" la liste des vins?
Vous: Je suppose que je peux donner deux réponses différentes à cette question. La première réponse est que vous recherchez des propriétés du vin (caractéristiques) très différentes d’un vin à l’autre. En effet, imaginez que vous obteniez une propriété identique pour la plupart des vins. Cela ne serait pas très utile, n'est-ce pas? Les vins sont très différents, mais votre nouvelle propriété les rend tous identiques! Ce serait certainement un mauvais résumé. PCA recherche plutôt des propriétés présentant autant de variations que possible entre les vins.
La deuxième réponse est que vous recherchez les propriétés qui vous permettraient de prédire ou de "reconstruire" les caractéristiques originales du vin. Encore une fois, imaginez que vous obteniez une propriété qui n’ait aucun rapport avec les caractéristiques originales; si vous n'utilisez que cette nouvelle propriété, il est impossible de reconstruire les propriétés d'origine! Ceci, encore une fois, serait un mauvais résumé. PCA recherche donc des propriétés permettant de reconstruire au mieux les caractéristiques originales.
Étonnamment, il s’avère que ces deux objectifs sont équivalents et que l’ACP peut donc faire d'une pierre deux coups.
Conjoint: Mais chérie, ces deux "objectifs" de la PCA ont un son si différent! Pourquoi seraient-ils équivalents?
Vous: Hmmm. Je devrais peut-être faire un petit dessin (prend une serviette et commence à gribouiller) . Choisissons deux caractéristiques du vin, peut-être l’obscurité et la teneur en alcool du vin. Je ne sais pas si elles sont corrélées, mais imaginons qu’elles le soient. Voici à quoi pourrait ressembler un nuage de points de différents vins:

Chaque point dans ce "nuage de vin" montre un vin particulier. Vous voyez que les deux propriétés ( X et y sur cette figure) sont corrélées. Une nouvelle propriété peut être construite en traçant une ligne au centre de ce nuage de vin et en projetant tous les points sur cette ligne. Cette nouvelle propriété sera donnée par une combinaison linéaire w1x + w2y , où chaque ligne correspond à des valeurs particulières de w1 et w2 .
Maintenant, regardez très attentivement - voici comment se présentent ces projections pour différentes lignes (les points rouges sont des projections des points bleus):

Comme je l'ai dit précédemment, PCA trouvera la "meilleure" ligne en fonction de deux critères différents de ce qui est "le meilleur". Premièrement, la variation des valeurs le long de cette ligne devrait être maximale. Faites attention à la façon dont la "propagation" (nous l'appelons "variance") des points rouges change pendant que la ligne tourne; pouvez-vous voir quand il atteint son maximum? Deuxièmement, si nous reconstruisons les deux caractéristiques originales (position d’un point bleu) à partir de la nouvelle (position d’un point rouge), l’erreur de reconstruction sera donnée par la longueur de la ligne rouge de connexion. Observez l'évolution de la longueur de ces lignes rouges pendant leur rotation. pouvez-vous voir quand la longueur totale atteint le minimum?
Si vous regardez cette animation pendant un certain temps, vous remarquerez que "la variance maximale" et "l'erreur minimale" sont atteintes en même temps, notamment lorsque la ligne pointe vers les tiques magenta que j'ai marquées des deux côtés du nuage de vin. . Cette ligne correspond à la nouvelle propriété viticole qui sera construite par PCA.
À propos, PCA signifie "analyse en composantes principales" et cette nouvelle propriété est appelée "première composante principale". Et au lieu de dire "propriété" ou "caractéristique", nous disons habituellement "caractéristique" ou "variable".
Fille: Très gentil papa! Je pense comprendre pourquoi les deux objectifs donnent le même résultat: c'est essentiellement à cause du théorème de Pythagore, n'est-ce pas? Quoi qu'il en soit, j'ai entendu dire que la PCA est en quelque sorte liée aux vecteurs propres et aux valeurs propres; où sont-ils sur cette photo?
Vous: Observation brillante. Mathématiquement, la dispersion des points rouges est mesurée en tant que distance moyenne au carré du centre du nuage de vin à chaque point rouge; comme vous le savez, cela s'appelle la variance . D'autre part, l'erreur totale de reconstruction est mesurée par la longueur au carré moyenne des lignes rouges correspondantes. Mais comme l'angle entre les lignes rouges et la ligne noire est toujours 90∘, la somme de ces deux quantités est égale à la distance moyenne au carré entre le centre du nuage de vin et chaque point bleu; c'est précisément le théorème de Pythagore. Bien sûr, cette distance moyenne ne dépend pas de l'orientation de la ligne noire, donc plus l'erreur est grande, plus l'erreur est faible (car leur somme est constante). Cet argument à la main peut être précisé ( voir ici ).
À propos, vous pouvez imaginer que la ligne noire est une tige solide et que chaque ligne rouge est un ressort. L'énergie du ressort est proportionnelle à sa longueur au carré (c'est la loi de Hooke en physique), de sorte que la tige s'orientera de manière à minimiser la somme de ces distances au carré. J'ai fait une simulation de ce à quoi cela va ressembler, en présence de frottements visqueux:

Concernant les vecteurs propres et les valeurs propres. Vous savez ce qu'est une matrice de covariance . dans mon exemple, c'est une matrice 2 × 2 qui est donnée par
( 1,070,630,630,64) .
Cela signifie que la variance de la variable
X est
1,07 , la variance de la variable
y est
0,64 et la covariance entre elles est de
0,63 . S'agissant d'une matrice à symétrie carrée, il est possible de la diagonaliser en choisissant un nouveau système de coordonnées orthogonales, donné par ses vecteurs propres (d'ailleurs, on l'appelle
théorème spectral).) les valeurs propres correspondantes seront alors situées sur la diagonale. Dans ce nouveau système de coordonnées, la matrice de covariance est diagonale et ressemble à ceci:
( 1,52000,19) ,
ce qui signifie que la corrélation entre les points est maintenant nulle. Il devient clair que la variance de toute projection sera donnée par une moyenne pondérée des valeurs propres (je ne fais que dessiner ici l'intuition). Par conséquent, la variance maximale possible (
1,52 ) sera atteinte si nous prenons simplement la projection sur le premier axe de coordonnées. Il s'ensuit que la direction de la première composante principale est donnée par le premier vecteur propre de la matrice de covariance. (
Plus de détails ici. )
Vous le voyez également sur la figure en rotation: il y a une ligne grise orthogonale à la ligne noire; ensemble, ils forment un cadre de coordonnées rotatif. Essayez de remarquer que les points bleus ne sont plus corrélés dans ce cadre en rotation. La réponse, encore une fois, est que cela se produit précisément lorsque la ligne noire pointe vers les tiques magenta. Maintenant, je peux vous dire comment je les ai trouvés: ils marquent la direction du premier vecteur propre de la matrice de covariance, qui dans ce cas est égal à ( 0,81 , 0,58 ) .
À la demande générale, j'ai partagé le code Matlab pour produire les animations ci-dessus .