Questions marquées «dimensionality-reduction»

Fait référence aux techniques permettant de réduire un grand nombre de variables ou de dimensions réparties par les données à un plus petit nombre de dimensions tout en préservant autant d'informations sur les données que possible. Les principales méthodes comprennent PCA, MDS, Isomap, etc. Les deux principales sous-classes de techniques: l'extraction et la sélection d'entités.

5
Comment les principaux composants principaux peuvent-ils conserver le pouvoir prédictif sur une variable dépendante (ou même conduire à de meilleures prédictions)?
Supposons que je courais une régression . Pourquoi en sélectionnant les premiers composants de , le modèle conserve-t-il son pouvoir prédictif sur ?k X YOui∼ XOui∼XY \sim XkkkXXXOuiOuiY Je comprends que du point de vue de la réduction de dimensionnalité / sélection des caractéristiques, si sont les vecteurs propres de …

2
Comment comprendre «non linéaire» comme dans «réduction de dimensionnalité non linéaire»?
J'essaie de comprendre les différences entre les méthodes de réduction de dimensionnalité linéaire (par exemple, PCA) et les méthodes non linéaires (par exemple, Isomap). Je ne comprends pas très bien ce que la (non) linéarité implique dans ce contexte. J'ai lu sur Wikipedia que Par comparaison, si PCA (un algorithme …

3
La réduction de dimensionnalité pour la visualisation doit-elle être considérée comme un problème «fermé», résolu par t-SNE?
J'ai beaucoup lu sur l' algorithme -snettt pour la réduction de dimensionnalité. Je suis très impressionné par les performances sur les ensembles de données "classiques", comme MNIST, où il réalise une séparation claire des chiffres ( voir l'article original ): Je l'ai également utilisé pour visualiser les fonctionnalités apprises par …

2
Qu'est-ce que la «régression à rang réduit»?
J'ai lu Les éléments de l'apprentissage statistique et je ne pouvais pas comprendre en quoi consiste la section 3.7 «Réduction et sélection des résultats multiples». Il parle de RRR (régression à rang réduit), et je peux seulement comprendre que la prémisse concerne un modèle linéaire multivarié généralisé où les coefficients …

1
Pourquoi n'y a-t-il que
En PCA, lorsque le nombre de dimensions est supérieur (voire égal) au nombre d'échantillons , pourquoi avez-vous au plus vecteurs propres non nuls? En d'autres termes, le rang de la matrice de covariance parmi les dimensions est .dddNNNN−1N−1N-1d≥Nd≥Nd\ge NN−1N−1N-1 Exemple: Vos échantillons sont des images vectorisées, qui sont de dimension …

1
t-SNE contre MDS
J'ai lu récemment des questions sur t-SNE ( t-Distributed Stochastic Neighbour Embedding ) et j'ai également visité quelques questions sur MDS ( Multidimensional Scaling ). Ils sont souvent utilisés de manière analogue, il semblait donc judicieux de poser cette question, car il y a de nombreuses questions séparément (ou par …


4
Pourquoi les données mixtes posent-elles un problème pour les algorithmes de clustering basés sur les euclidiens?
La plupart des algorithmes de clustering et de réduction de dimensionnalité classiques (clustering hiérarchique, analyse des composants principaux, k-means, cartes auto-organisées ...) sont conçus spécifiquement pour les données numériques, et leurs données d'entrée sont considérées comme des points dans un espace euclidien. C'est un problème bien sûr, car de nombreuses …


1
Comment LDA, une technique de classification, sert également de technique de réduction de dimensionnalité comme l'ACP
Dans cet article , l'auteur relie l'analyse discriminante linéaire (LDA) à l'analyse en composantes principales (ACP). Avec mes connaissances limitées, je ne suis pas en mesure de comprendre comment LDA peut être quelque peu similaire à PCA. J'ai toujours pensé que LDA était une forme d'algorithme de classification, similaire à …


1
Les données doivent-elles être centrées + mises à l'échelle avant d'appliquer t-SNE?
Certaines fonctionnalités de mes données ont de grandes valeurs, tandis que d'autres fonctionnalités ont des valeurs beaucoup plus petites. Est-il nécessaire de centrer + l'échelle des données avant d'appliquer t-SNE pour éviter un biais vers les valeurs plus grandes? J'utilise l'implémentation sklearn.manifold.TSNE de Python avec la métrique de distance euclidienne …

4
La «malédiction de la dimensionnalité» existe-t-elle vraiment dans les données réelles?
Je comprends ce qu'est la «malédiction de la dimensionnalité», et j'ai fait quelques problèmes d'optimisation dimensionnelle élevée et je connais le défi des possibilités exponentielles. Cependant, je doute que la "malédiction de la dimensionnalité" existe dans la plupart des données du monde réel (eh bien, mettons les images ou les …


2
Quand combinons-nous la réduction de dimensionnalité avec le clustering?
J'essaie d'effectuer un clustering au niveau du document. J'ai construit la matrice de fréquence terme-document et j'essaie de regrouper ces vecteurs de haute dimension en utilisant k-means. Au lieu de regrouper directement, ce que j'ai fait, j'ai d'abord appliqué la décomposition vectorielle singulière de LSA (Latent Semantic Analysis) pour obtenir …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.