J'ai quelques questions rapides sur PCA:
- L'ACP suppose- t-elle que l'ensemble de données est gaussien?
- Que se passe-t-il lorsque j'applique une PCA à des données intrinsèquement non linéaires?
Étant donné un ensemble de données, le processus consiste d'abord à normaliser la moyenne, à définir la variance sur 1, à prendre un SVD, à réduire le classement et enfin à mapper l'ensemble de données dans le nouvel espace de classement réduit. Dans le nouvel espace, chaque dimension correspond à une "direction" de variance maximale.
- Mais la corrélation de cet ensemble de données dans le nouvel espace est-elle toujours nulle, ou est-ce vrai uniquement pour les données intrinsèquement gaussiennes?
Supposons que j'ai deux jeux de données, "A" et "B", où "A" correspond à des points échantillonnés au hasard pris à partir d'un gaussien, tandis que "B" correspond à des points échantillonnés au hasard à partir d'une autre distribution (disons Poisson).
- Comment l'APC (A) se compare-t-elle à l'APC (B)?
- En regardant les points dans le nouvel espace, comment pourrais-je déterminer que le PCA (A) correspond aux points échantillonnés à partir d'un gaussien, alors que le PCA (B) correspond aux points échantillonnés à partir d'un Poisson?
- La corrélation des points dans "A" est-elle 0?
- La corrélation des points dans "B" est-elle également 0?
- Plus important encore, est-ce que je pose la "bonne" question?
- Dois-je regarder la corrélation, ou y a-t-il une autre métrique que je devrais considérer?