J'essaie d'obtenir une compréhension intuitive du fonctionnement de l'analyse en composantes principales (ACP) dans l'espace (double) sujet .
Considérons un ensemble de données 2D avec deux variables, et , et points de données (la matrice de données est et est supposée être centrée). La présentation habituelle de l'ACP est que nous considérons points dans , écrivons la matrice de covariance , et trouvons ses vecteurs propres et valeurs propres; le premier PC correspond à la direction de la variance maximale, etc. Voici un exemple avec la matrice de covariance . Les lignes rouges montrent les vecteurs propres mis à l'échelle par les racines carrées des valeurs propres respectives.
Considérez maintenant ce qui se passe dans l' espace sujet (j'ai appris ce terme de @ttnphns), également connu sous le nom d' espace double (le terme utilisé dans l'apprentissage automatique). Il s'agit d'un espace à dimensions où les échantillons de nos deux variables (deux colonnes de ) forment deux vecteurs et . La longueur au carré de chaque vecteur variable est égale à sa variance, le cosinus de l'angle entre les deux vecteurs est égal à la corrélation entre eux. Cette représentation est d'ailleurs très standard dans les traitements de régression multiple. Dans mon exemple, l'espace sujet ressemble à ça (je montre seulement le plan 2D enjambé par les deux vecteurs variables):X x 1 x 2
Les composants principaux, étant des combinaisons linéaires des deux variables, formeront deux vecteurs et dans le même plan. Ma question est: quelle est la compréhension / intuition géométrique de la façon de former des vecteurs variables à composantes principales en utilisant les vecteurs variables originaux sur un tel tracé? Étant donné et , quelle procédure géométrique donnerait ?p 2 x 1 x 2 p 1
Ci-dessous est ma compréhension partielle actuelle de celui-ci.
Tout d'abord, je peux calculer les principaux composants / axes via la méthode standard et les tracer sur la même figure:
De plus, on peut noter que le est choisi de telle sorte que la somme des distances au carré entre (vecteurs bleus) et leurs projections sur est minimale; ces distances sont des erreurs de reconstruction et elles sont représentées par des lignes noires en pointillés. De manière équivalente, maximise la somme des longueurs au carré des deux projections. Cela spécifie complètement et bien sûr est complètement analogue à la description similaire dans l'espace principal (voir l'animation dans ma réponse à Comprendre l'analyse des composants principaux, les vecteurs propres et les valeurs propres ). Voir également la première partie de la réponse de @ ttnphns ici .x i p 1 p 1 p 1
Mais ce n'est pas assez géométrique! Il ne me dit pas comment trouver un tel et ne spécifie pas sa longueur.
Je suppose que , , et se trouvent tous sur une ellipse centrée sur avec et comme axes principaux. Voici à quoi cela ressemble dans mon exemple:x 2 p 1 p 2 0 p 1 p 2
Q1: Comment le prouver? La démonstration algébrique directe semble être très fastidieuse; comment voir que cela doit être le cas?
Mais il existe de nombreuses ellipses différentes centrées sur et passant par et :x 1 x 2
Q2: Qu'est-ce qui spécifie l'ellipse "correcte"? Ma première supposition était que c'est l'ellipse avec l'axe principal le plus long possible; mais cela semble faux (il y a des ellipses avec un axe principal de n'importe quelle longueur).
S'il y a des réponses à Q1 et Q2, je voudrais aussi savoir si elles se généralisent au cas de plus de deux variables.
variable space (I borrowed this term from ttnphns)
- @amoeba, vous devez vous tromper. Les variables en tant que vecteurs dans (à l'origine) l'espace à n dimensions sont appelées espace sujet (n sujets en tant qu'axes "ont défini" l'espace tandis que p variables "s'étendent" sur lui). L'espace variable est, au contraire, l'inverse - c'est-à-dire le nuage de points habituel. C'est ainsi que la terminologie est établie dans les statistiques multivariées. (Si dans l'apprentissage automatique, c'est différent - je ne le sais pas - alors c'est bien pire pour les apprenants.)
My guess is that x1, x2, p1, p2 all lie on one ellipse
Quelle pourrait être l'aide heuristique de l'ellipse ici? J'en doute.