L'inclusion de voisin stochastique distribué en T (t-SNE) est un algorithme de réduction de dimensionnalité non linéaire introduit par van der Maaten et Hinton en 2008.
J'ai une application où il serait pratique de regrouper un ensemble de données bruyant avant de rechercher des effets de sous-groupe dans les clusters. J'ai d'abord examiné PCA, mais il faut environ 30 composants pour obtenir 90% de la variabilité. Par conséquent, le regroupement sur seulement quelques PC va jeter …
Je veux voir comment 7 mesures du comportement de correction de texte (temps passé à corriger le texte, nombre de frappes au clavier, etc.) sont liées les unes aux autres. Les mesures sont corrélées. J'ai exécuté une ACP pour voir comment les mesures étaient projetées sur PC1 et PC2, ce …
Dans mon esprit, la divergence de KL entre la distribution de l'échantillon et la distribution vraie est simplement la différence entre l'entropie croisée et l'entropie. Pourquoi utilisons-nous l'entropie croisée comme fonction de coût dans de nombreux modèles d'apprentissage automatique, alors que nous utilisons la divergence de Kullback-Leibler dans t-sne? Y …
Citant l'un des auteurs: L'intégration de voisins stochastiques t-distribués (t-SNE) est une technique ( primée ) de réduction de dimensionnalité particulièrement bien adaptée à la visualisation de jeux de données de grande dimension. Cela semble donc très bien, mais c'est l'auteur qui parle. Une autre citation de l'auteur (concernant le …
Lors d'une récente mission, il nous a été dit d'utiliser PCA sur les chiffres du MNIST pour réduire les dimensions de 64 (8 x 8 images) à 2. Nous avons ensuite dû regrouper les chiffres à l'aide d'un modèle de mélange gaussien. La PCA n'utilisant que 2 composantes principales ne …
J'ai une matrice de 336x256 nombres à virgule flottante (336 génomes bactériens (colonnes) x 256 fréquences tétranucléotidiques normalisées (lignes), par exemple chaque colonne totalise 1). J'obtiens de bons résultats lorsque j'exécute mon analyse en utilisant l'analyse des composants principaux. Tout d'abord, je calcule les clusters kmeans sur les données, puis …
J'ai beaucoup lu sur l' algorithme -snettt pour la réduction de dimensionnalité. Je suis très impressionné par les performances sur les ensembles de données "classiques", comme MNIST, où il réalise une séparation claire des chiffres ( voir l'article original ): Je l'ai également utilisé pour visualiser les fonctionnalités apprises par …
J'ai lu récemment des questions sur t-SNE ( t-Distributed Stochastic Neighbour Embedding ) et j'ai également visité quelques questions sur MDS ( Multidimensional Scaling ). Ils sont souvent utilisés de manière analogue, il semblait donc judicieux de poser cette question, car il y a de nombreuses questions séparément (ou par …
Ma compréhension du t-SNE et de l'approximation de Barnes-Hut est que tous les points de données sont nécessaires pour que toutes les interactions de force puissent être calculées en même temps et chaque point peut être ajusté dans la carte 2D (ou dimensionnelle inférieure). Existe-t-il des versions de t-sne qui …
Certaines fonctionnalités de mes données ont de grandes valeurs, tandis que d'autres fonctionnalités ont des valeurs beaucoup plus petites. Est-il nécessaire de centrer + l'échelle des données avant d'appliquer t-SNE pour éviter un biais vers les valeurs plus grandes? J'utilise l'implémentation sklearn.manifold.TSNE de Python avec la métrique de distance euclidienne …
En tant que problème spécifique avec lequel je travaille (une compétition), j'ai le réglage suivant: 21 fonctionnalités (numériques sur [0,1]) et une sortie binaire. J'ai environ 100 K rangées. Le cadre semble être très bruyant. Moi et d'autres participants appliquons la génération de fonctionnalités pendant un certain temps et l'intégration …
J'essaie actuellement de faire le tour de la mathématique t-SNE . Malheureusement, il y a encore une question à laquelle je ne peux pas répondre de manière satisfaisante: quelle est la signification réelle des axes dans un graphique t-SNE? Si je devais faire une présentation sur ce sujet ou l'inclure …
Supposons que nous ayons un problème de classification et, dans un premier temps, nous voulons obtenir un aperçu des données et nous faisons t-SNE. Le résultat de t-SNE sépare très bien les classes. Cela implique qu'il est possible de construire un modèle de classification qui séparera également très bien les …
Dans quelles situations devrions-nous utiliser t-SNE (en dehors de la visualisation des données)? T-SNE est utilisé pour la réduction de dimensionnalité. La réponse à cette question suggère que t-SNE devrait être utilisé uniquement pour la visualisation et que nous ne devrions pas l'utiliser pour le clustering. Alors, quelle est la …
Pour autant que je sache, les encodeurs automatiques et t-SNE sont utilisés pour la réduction de dimensionnalité non linéaire. Quelles sont les différences entre eux et pourquoi devrais-je utiliser l'un par rapport à l'autre?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.