Je sais que l'objectif de l'ACP est de réduire la dimensionnalité
C'est souvent ce que les gens supposent, mais en fait, l'ACP n'est qu'une représentation de vos données sur une base orthogonale. Cette base a toujours la même dimensionnalité que vos données d'origine. Rien n'est encore perdu ... La partie réduction de dimensionnalité dépend entièrement de vous. PCA garantit que les premières dimensions de votre nouvelle projection sont les meilleures dimensions sous lesquelles vos données pourraient éventuellement être représentées. Que signifie le mieux? C'est là que la variance expliquée entre en jeu.kk k
évidemment pas dans ce cas
Je n'en serais pas si sûr! À partir de votre deuxième tracé, visuellement, il semble que beaucoup d'informations de vos données puissent être projetées sur une ligne horizontale. C'est 1 dimension, au lieu de l'intrigue originale qui était en 2 dimensions! De toute évidence, vous perdez des informations parce que vous supprimez l'axe Y, mais si cette perte d'informations vous convient, c'est votre appel.
Il y a une tonne de questions liées à ce que l'APC est sur le site, donc je vous encourage à les vérifier ici , ici , ici ou ici . Si vous avez d'autres questions après cela, veuillez les poster et je serai heureux de vous aider.
Comme votre question réelle:
Quelle est l'histoire que vous pouvez raconter sur la température par rapport à la crème glacée dans l'intrigue PCA?
Étant donné que les nouveaux axes de coordonnées sont une combinaison linéaire des coordonnées d'origine, alors ... essentiellement rien! PCA vous donnera une réponse comme (chiffres composés):
P C 1P C 2= 2,5 × crème glacée - 3,6 × température= - 1,5 × crème glacée + 0,6 × température
Cela vous est-il utile? Peut être. Mais je suppose que non :)
Édité
J'ajouterai cette ressource qui je pense est utile parce que les graphiques interactifs sont cool.
Modifié à nouveau
Pour clarifier ce que signifie le meilleur :k
PCA essaie de trouver les dimensions qui produisent la variance la plus élevée lorsque les données sont projetées sur elles. En supposant que vos données ont dimensions, les premiers PC expliquent plus de variance dans vos données que n'importe quelle autre dimension . C'est ce que je veux dire par meilleur . Que cela vous soit utile ou non, c'est autre chose.k k kn > kkk k