Dans quelle mesure la PCA clairsemée est-elle meilleure que la PCA?


24

J'ai appris le PCA il y a quelques conférences en classe et en approfondissant ce concept fascinant, j'ai appris à connaître le PCA clairsemé.

Je voulais demander, si je ne me trompe pas, c'est ce que l'APC est clairsemée: Dans l'APC, si vous avez points de données avec variables, vous pouvez représenter chaque point de données dans espace dimensionnel avant d'appliquer l'APC. Après avoir appliqué l'ACP, vous pouvez à nouveau le représenter dans le même espace dimensionnel, mais, cette fois, le premier composant principal contiendra le plus de variance, le second contiendra la deuxième direction de variance et ainsi de suite. Vous pouvez donc éliminer les derniers composants principaux, car ils ne causeront pas beaucoup de pertes de données et vous pouvez compresser les données. Droite?npp

L'ACP éparse sélectionne les composants principaux de telle sorte que ces composants contiennent moins de valeurs non nulles dans leurs coefficients vectoriels.

Comment cela est-il censé vous aider à mieux interpréter les données? Quelqu'un peut-il donner un exemple?


Bonjour @GrowinMan! Avez-vous vu ma réponse à cette question? Pensez-vous qu'il y répond? Sinon, n'hésitez pas à demander des éclaircissements, ou peut-être envisagez de modifier votre question pour la rendre plus précise. Si oui, alors envisagez de voter et de "l'accepter" en cliquant sur une coche verte à proximité. J'ai remarqué que vous n'avez aucun vote et aucun fil accepté sur CrossValidated.
amibe dit Réintégrer Monica

@amoeba Merci d'avoir signalé cela. Je ne me suis pas connecté depuis un moment et je suis également un peu déconnecté de l'apprentissage automatique. Je vais être sûr de relire votre réponse et de marquer les réponses ici d'ici le week
GrowinMan

Aucun problème. J'ai accidentellement rencontré ce vieux fil et j'ai pensé à vous laisser tomber une ligne.
amibe dit Réintégrer Monica

Bonjour @GrowinMan! :-) J'ai retrouvé ce vieux fil. Si vous pensez toujours que cette question n'est pas résolue, n'hésitez pas à demander des clarifications. Sinon, pensez à voter et "accepter" l'une des réponses en cliquant sur une coche verte à proximité. J'ai remarqué que vous n'avez aucun vote et aucun fil accepté sur CrossValidated.
amibe dit Réintégrer Monica

Réponses:


29

Que l'APC éparse soit plus facile à interpréter que l'APC standard ou non, cela dépend de l'ensemble de données que vous étudiez. Voici ce que j'en pense: tantôt on s'intéresse davantage aux projections PCA (représentation dimensionnelle basse des données), tantôt - aux axes principaux; ce n'est que dans ce dernier cas que l'APC éparse peut avoir des avantages pour l'interprétation. Permettez-moi de donner quelques exemples.

Je travaille par exemple avec des données neuronales (enregistrements simultanés de nombreux neurones) et j'applique l'ACP et / ou des techniques de réduction de dimensionnalité connexes pour obtenir une représentation à faible dimension de l'activité de la population neuronale. Je pourrais avoir 1000 neurones (c'est-à-dire mes données vivent dans un espace à 1000 dimensions) et je veux les projeter sur les trois principaux axes principaux. Ce que ces axes sont, est totalement hors de propos pour moi, et je n'ai aucune intention de "interpréter" ces axes en aucune façon. Ce qui m'intéresse, c'est la projection 3D (comme l'activité dépend du temps, j'obtiens une trajectoire dans cet espace 3D). Je vais donc bien si chaque axe a tous les 1000 coefficients non nuls.

D'un autre côté, quelqu'un pourrait travailler avec des données plus "tangibles", où les dimensions individuelles ont une signification évidente (contrairement aux neurones individuels ci-dessus). Par exemple, un ensemble de données de différentes voitures, où les dimensions vont du poids au prix. Dans ce cas, on pourrait en fait s'intéresser aux principaux axes principaux eux-mêmes, car on pourrait vouloir dire quelque chose: regardez, le 1er axe principal correspond à la "fantaisie" de la voiture (j'invente tout cela maintenant). Si la projection est clairsemée, de telles interprétations seraient généralement plus faciles à donner, car de nombreuses variables auront coefficients et ne sont donc évidemment pas pertinentes pour cet axe particulier. Dans le cas de l'ACP standard, on obtient généralement des coefficients non nuls pour toutes les variables.0

Vous pouvez trouver plus d'exemples et quelques discussions sur ce dernier cas dans l'article Sparse PCA de 2006 de Zou et al. La différence entre le premier et le dernier cas, cependant, je n'ai vu aucune discussion explicite nulle part (même si c'était probablement le cas).


3
Ce fut une excellente explication. Un autre exemple de vos données "tangibles" serait Un sondage avec de nombreuses questions et vous voulez savoir quelles questions du sondage sont les plus importantes et peut-être qu'une combinaison d'entre elles pose vraiment sur un sujet.
bdeonovic

1

Vous pouvez donc éliminer les derniers composants principaux, car ils ne causeront pas beaucoup de pertes de données et vous pouvez compresser les données. Droite?

Oui tu as raison. Et s'il y a variables , vous avez alors Composant principal , et chaque variable a une information (une contribution) dans chaque PC .NV1,V2,,VNNPC1,PC2,,PCNVjePCje

Dans la PCA clairsemée, il y a sans information de certaines variables , les variables de coefficient zéro.PCjeVj,Vl,

Ensuite, si dans un plan , il y a moins de variables que prévu ( ), il est plus facile d'effacer les relations linéaires entre elles dans ce plan. (PCje,PCj)N


Comment!? Je ne vois pas comment ce serait facile à interpréter dans ce cas, par opposition à quand les composants principaux ne sont pas rares.
GrowinMan

2
La façon dont je pense à cela est que nous faisons souvent un clustering variable avant PC pour rendre les résultats plus interprétables. Sparse PC combine le clustering variable et le PC en une seule étape, nécessitant moins de décisions de la part de l'analyste.
Frank Harrell

1

Pour comprendre les avantages de la rareté de l'ACP, vous devez vous assurer de connaître la différence entre les "chargements" et les "variables" (pour moi, ces noms sont quelque peu arbitraires, mais ce n'est pas important).

Supposons que vous ayez une matrice de données nxp X , où n est le nombre d'échantillons. La SVD de X = USV ' , vous donne trois matrices. La combinaison des deux premiers Z = US vous donne la matrice des composants principaux. Disons que votre rang réduit est k , alors Z est nxk . Z est essentiellement votre matrice de données après réduction de dimension. Historiquement,

Les entrées de vos principaux composants (aka Z = US ) sont appelées variables.

D'autre part, V (qui est pxk ) contient les vecteurs de chargement principaux et ses entrées sont appelées les chargements principaux. Compte tenu des propriétés de l'ACP, il est facile de montrer que Z = XV . Cela signifie que:

Les principaux composants sont obtenus en utilisant les charges principales comme coefficients dans une combinaison linéaire de votre matrice de données X .

Maintenant que ces définitions sont à l'écart, nous allons examiner la rareté. La plupart des papiers (ou du moins la plupart que j'ai rencontrés), imposent la rareté sur les chargements principaux (aka V ). L'avantage de la rareté est que

un V clairsemé nous dira quelles variables (à partir de l' espace caractéristique d' origine p- dimensionnelle) méritent d'être conservées. C'est ce qu'on appelle l'interprétabilité.

Il existe également des interprétations pour imposer la rareté sur les entrées de Z , que j'ai vu des gens appeler "variable clairsemée PCA" ", mais c'est beaucoup moins populaire et pour être honnête, je n'y ai pas beaucoup pensé.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.