La réduction de la dimensionnalité ne perd pas toujours des informations. Dans certains cas, il est possible de représenter à nouveau les données dans des espaces de dimension inférieure sans ignorer aucune information.
Supposons que vous ayez des données où chaque valeur mesurée est associée à deux covariables ordonnées. Par exemple, supposons que vous ayez mesuré la qualité du signal (indiquée par la couleur blanc = bon, noir = mauvais) sur une grille dense de positions et par rapport à un émetteur. Dans ce cas, vos données pourraient ressembler à l'intrigue de gauche [* 1]:Qxy
C'est, au moins superficiellement, une donnée bidimensionnelle: . Cependant, nous pourrions connaître a priori (sur la base de la physique sous-jacente) ou supposer que cela ne dépend que de la distance de l'origine: r = . (Certaines analyses exploratoires pourraient également vous conduire à cette conclusion si même le phénomène sous-jacent n'est pas bien compris). Nous pourrions alors réécrire nos données en au lieu de , ce qui réduirait effectivement la dimensionnalité à une seule dimension. De toute évidence, ce n'est sans perte que si les données sont radialement symétriques, mais c'est une hypothèse raisonnable pour de nombreux phénomènes physiques.Q(x,y)x2+y2−−−−−−√Q(r)Q(x,y)
Cette transformation est non linéaire (il y a une racine carrée et deux carrés!), Donc elle est quelque peu différente du type de réduction de dimensionnalité effectuée par PCA, mais je pense que c'est une bonne exemple de la façon dont vous pouvez parfois supprimer une dimension sans perdre aucune information.Q(x,y)→Q(r)
Pour un autre exemple, supposons que vous effectuez une décomposition en valeurs singulières sur certaines données (SVD est un proche cousin - et souvent les entrailles sous-jacentes de - l'analyse des composants principaux). SVD prend votre matrice de données et la factorise en trois matrices telles que . Les colonnes de U et V sont les vecteurs singuliers gauches et droites, respectivement, qui forment un ensemble de bases orthonormées de . Les éléments diagonaux de (c'est-à-dire sont des valeurs singulières, qui sont effectivement des poids sur le ème ensemble de base formé par les colonnes correspondantes de et (le reste deM = U S V T M S S i , i ) i U V S N x N N x N S U V M Q ( x , y )MM=USVTMSSi,i)iUVSest des zéros). En soi, cela ne vous donne aucune réduction de dimensionnalité (en fait, il y a maintenant 3 matrices au lieu de la matrice unique avec laquelle vous avez commencé). Cependant, certains éléments diagonaux de sont parfois nuls. Cela signifie que les bases correspondantes dans et ne sont pas nécessaires pour reconstruire et qu'elles peuvent donc être supprimées. Par exemple, supposons que leNxNNxNSUVMQ(x,y)la matrice ci-dessus contient 10 000 éléments (c'est-à-dire 100 x 100). Lorsque nous effectuons un SVD dessus, nous constatons qu'une seule paire de vecteurs singuliers a une valeur non nulle [* 2], nous pouvons donc représenter à nouveau la matrice d'origine comme le produit de deux vecteurs à 100 éléments (200 coefficients, mais vous pouvez en fait faire un peu mieux [* 3]).
Pour certaines applications, nous savons (ou du moins supposons) que les informations utiles sont capturées par des composants principaux avec des valeurs singulières élevées (SVD) ou des chargements (PCA). Dans ces cas, nous pourrions rejeter les vecteurs / bases / composants principaux singuliers avec des chargements plus petits même s'ils sont non nuls, sur la théorie qu'ils contiennent un bruit gênant plutôt qu'un signal utile. J'ai parfois vu des gens rejeter des composants spécifiques en fonction de leur forme (par exemple, il ressemble à une source connue de bruit additif) quel que soit le chargement. Je ne sais pas si vous considéreriez cela comme une perte d'informations ou non.
Il y a quelques résultats intéressants sur l'optimalité théorique de l'information de l'ACP. Si votre signal est gaussien et corrompu par un bruit gaussien additif, alors PCA peut maximiser les informations mutuelles entre le signal et sa version à dimensionnalité réduite (en supposant que le bruit a une structure de covariance de type identité).
Notes de bas de page:
- C'est un modèle ringard et totalement non physique. Pardon!
- En raison de l'imprécision en virgule flottante, certaines de ces valeurs ne seront pas plutôt nulles à la place.
- Après un examen plus approfondi, dans ce cas particulier , les deux vecteurs singuliers sont les mêmes ET symétriques par rapport à leur centre, nous pourrions donc réellement représenter la matrice entière avec seulement 50 coefficients. Notez que la première étape tombe automatiquement du processus SVD; le second nécessite une inspection / un acte de foi. (Si vous voulez penser à cela en termes de scores PCA, la matrice de score est juste de la décomposition SVD d'origine; des arguments similaires sur les zéros ne contribuant pas du tout s'appliquent).US