Coordonnées des étoiles vs analyse des composants principaux

Je prépare actuellement une présentation pour un cours universitaire en "Analyse des données visuelles". Et l'un de mes sujets est la visualisation "Star Coordinate". Coordonnées étoiles

Comme les coordonnées stellaires effectuent une transformation de données de grande dimension, et la technique PCA bien connue le fait aussi, je me demande si PCA peut être imité par les coordonnées stellaires? Je pense à réorganiser les axes de coordonnées de manière à ce qu'ils représentent une combinaison linéaire des variables d'origine? Mais ce n'est qu'une idée. Quelqu'un peut-il confirmer ou infirmer cela?

data-visualization pca large-data

— VisioGuy
source

Le lien est intéressant, merci (+1). Votre idée est en quelque mimic PCA by Star Coordinatessorte trop vague pour poser un vrai problème (une question pourrait donc être posée). On pourrait vous conseiller d' essayer de le faire d' abord, puis - si vous avez des problèmes ou des doutes - posez une question.

— ttnphns

Pour ajouter à la réponse acceptée, vous pouvez essayer Star Coordinates ici: star-coordinates.com Cette implémentation peut vous donner une idée des opérations possibles. Avertissement: je suis le créateur de ce site Web. Lorsque je cherchais à comprendre ce type de visualisation par moi-même, je n'ai pas trouvé d'implémentation en ligne pour cela.

— kadrian

L'ACP et les «coordonnées étoiles» font des choses différentes. Étant donné que les coordonnées en étoile standardisent toutes les valeurs, une comparaison équitable appliquerait l'ACP à une matrice de corrélation (plutôt qu'à la matrice de covariance), qui est une autre façon de standardiser les valeurs.

L'ACP identifie un système de coordonnées adapté à la forme des données, tandis que les coordonnées des étoiles sont basées sur les coordonnées données à l'origine dans les données.

Cela rend PCA beaucoup plus flexible pour découvrir les relations entre les données. Les "coordonnées d'étoiles" ne sont en revanche pas beaucoup plus qu'un graphique 2D d' informations univariées .
L'ACP (lorsqu'elle est effectuée sur une matrice de corrélation) utilise les moyens de données pour l'origine et leurs écarts-types pour les échelles. Les coordonnées des étoiles utilisent les minima de données pour l'origine et leurs plages pour les échelles.

Les minima et les plages sont beaucoup plus sensibles aux données périphériques que les écarts-types, ce qui rend les coordonnées des étoiles moins adaptées à l'exploration de données à usage général.

En tant que tel, chacun a ses forces - bien que les forces particulières des coordonnées des étoiles par rapport à l'ACP soient difficiles à comprendre.

À titre d'exemple, considérons ces deux jeux de données 3D. Chacun se compose de 300 points et dans chacun, le nuage de points a une forme de "crêpe" elliptique très plate. (Les valeurs singulières de chaque matrice de corrélation sont proches de $\{2, 1, .01\}$ .) La ligne du haut de la figure présente les matrices de corrélation, la deuxième ligne montre une vue des nuages de points en pseudo 3D (orientée approximativement pour capturer les deux plus grandes composantes principales), et la ligne du bas est l'image des "coordonnées en étoile" de les mêmes points.

En raison des différentes orientations de ces nuages de points par rapport aux axes de coordonnées d'origine, les tracés de coordonnées étoiles sont entièrement différents. Ceci est caractéristique: les coordonnées des étoiles donnent des informations (très limitées) sur les coordonnées d'origine tandis que l'ACP révèle les relations entre les coordonnées.

Vous pouvez également voir que les coordonnées des étoiles sont une sorte de projection "accidentelle": parfois elles captureront les grandes composantes principales des données, comme dans la version de gauche, et parfois elles captureront les grandes et petites composantes (comme dans la main droite) , et à d'autres moments (non illustrés), ils ne capturent que de petits composants (et tous les points sont regroupés densément près de l'origine, ne révélant presque rien).

— whuber
source