Je lisais quelques notes et il est dit que PCA peut "sphérer les données". Ce qu'ils définissent pour moi comme "sphère des données" divise chaque dimension par la racine carrée de la valeur propre correspondante.
Je suppose que par "dimension", ils signifient chaque vecteur de base dans lequel nous projetons (c'est-à-dire les vecteurs propres vers lesquels nous projetons). Je suppose donc qu'ils font:
où est l'un des vecteurs propres (c'est-à-dire l'un des principaux composants). Puis avec ce nouveau vecteur, je suppose qu'ils projettent les données brutes que nous avons, disons à . Ainsi, les points projetés seraient désormais:
Ils affirment que cela garantit que toutes les fonctionnalités ont la même variance.
Cependant, je ne suis même pas sûr que mon interprétation de ce qu'ils entendent par sphère soit correcte et je voulais vérifier si c'était le cas. De plus, même si c'était correct, quel est l'intérêt de faire quelque chose comme ça? Je sais qu'ils affirment que cela garantit que tout le monde a le même écart, mais pourquoi voudrions-nous faire cela et comment y parvient-il?
u
est la valeur des vecteurs propres et est liée aux valeurs brutes du PC.u'
est appelé un chargement et est lié aux valeurs PC normalisées (variances égales). Vous voudrez peut-être lire ma réponse à ce sujet: stats.stackexchange.com/a/35653/3277 .