Questions marquées «high-dimensional»

Concerne un grand nombre de caractéristiques ou de dimensions (variables) pour les données. (Pour un grand nombre de points de données, utilisez la balise [big-data]; si le problème concerne un plus grand nombre de variables que de données, utilisez la balise [underdetermined].)

8
Pourquoi la distance euclidienne n'est-elle pas une bonne métrique dans les grandes dimensions?
J'ai lu que "la distance euclidienne n'est pas une bonne distance dans les grandes dimensions". Je suppose que cette déclaration a quelque chose à voir avec la malédiction de la dimensionnalité, mais quoi au juste? En outre, qu'est-ce que les «grandes dimensions»? J'appliquais la classification hiérarchique en utilisant la distance …




3
La réduction de dimensionnalité pour la visualisation doit-elle être considérée comme un problème «fermé», résolu par t-SNE?
J'ai beaucoup lu sur l' algorithme -snettt pour la réduction de dimensionnalité. Je suis très impressionné par les performances sur les ensembles de données "classiques", comme MNIST, où il réalise une séparation claire des chiffres ( voir l'article original ): Je l'ai également utilisé pour visualiser les fonctionnalités apprises par …


1
Les données doivent-elles être centrées + mises à l'échelle avant d'appliquer t-SNE?
Certaines fonctionnalités de mes données ont de grandes valeurs, tandis que d'autres fonctionnalités ont des valeurs beaucoup plus petites. Est-il nécessaire de centrer + l'échelle des données avant d'appliquer t-SNE pour éviter un biais vers les valeurs plus grandes? J'utilise l'implémentation sklearn.manifold.TSNE de Python avec la métrique de distance euclidienne …

4
La «malédiction de la dimensionnalité» existe-t-elle vraiment dans les données réelles?
Je comprends ce qu'est la «malédiction de la dimensionnalité», et j'ai fait quelques problèmes d'optimisation dimensionnelle élevée et je connais le défi des possibilités exponentielles. Cependant, je doute que la "malédiction de la dimensionnalité" existe dans la plupart des données du monde réel (eh bien, mettons les images ou les …


1
La malédiction dimensionnelle affecte-t-elle certains modèles plus que d'autres?
Les endroits que j'ai lus sur la malédiction de la dimensionnalité l'expliquent conjointement avec kNN principalement et les modèles linéaires en général. Je vois régulièrement les meilleurs classeurs de Kaggle utiliser des milliers d'entités sur un ensemble de données qui ne contient pratiquement pas 100 000 points de données. Ils …

3
PCA sur les données textuelles de grande dimension avant la classification aléatoire des forêts?
Est-il judicieux de faire de l'ACP avant d'effectuer une classification aléatoire des forêts? J'ai affaire à des données de texte de grande dimension, et je veux faire une réduction de fonctionnalités pour éviter la malédiction de la dimensionnalité, mais Random Forests ne fait-il pas déjà une sorte de réduction de …


2
La régression linéaire multiple en 3 dimensions est-elle un plan de meilleur ajustement ou une ligne de meilleur ajustement?
Notre prof ne se lance pas dans les mathématiques ou même la représentation géométrique de la régression linéaire multiple et cela m'a légèrement confus. D'une part, il est toujours appelé régression linéaire multiple , même dans des dimensions plus élevées. D'un autre côté, si nous avons par exemple et que …


1
Le théorème du contraste relatif de Beyer et al. papier: «Sur le comportement surprenant des métriques de distance dans l'espace de grande dimension» trompeur?
Ceci est cité très souvent en mentionnant la malédiction de la dimensionnalité et va (formule de droite appelée contraste relatif) limré→ ∞var ( | | Xré| |kE[ | | Xré| |k]) =0,alors: Dmaxkré- Dminkréréminkré→ 0limré→∞var(||Xré||kE[||Xré||k])=0,alors:rémaxrék-réminrékréminrék→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 Le résultat …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.