La réduction de dimensionnalité fait référence à des techniques permettant de réduire de nombreuses variables en un nombre plus petit tout en conservant autant d'informations que possible. Une méthode importante est [tag pca]
De wikipedia, La réduction de dimensionnalité ou réduction de dimension est le processus de réduction du nombre de variables aléatoires prises en compte. Elle peut être divisée en sélection et extraction de caractéristiques. Quelle est la différence entre la sélection de fonctionnalités et l'extraction de fonctionnalités? Quel est un exemple …
J'ai un grand ensemble de données (environ 8 Go). J'aimerais utiliser l'apprentissage automatique pour l'analyser. Donc, je pense que je devrais utiliser SVD puis PCA pour réduire la dimensionnalité des données pour plus d'efficacité. Cependant, MATLAB et Octave ne peuvent pas charger un ensemble de données aussi volumineux. Quels outils …
J'ai une base de données de mon application Facebook et j'essaie d'utiliser l'apprentissage automatique pour estimer l'âge des utilisateurs en fonction des sites Facebook qu'ils aiment. Il y a trois caractéristiques cruciales de ma base de données: la répartition par âge dans mon ensemble de formation (12k d'utilisateurs en somme) …
Il existe de nombreuses techniques pour visualiser des jeux de données de grande dimension, tels que T-SNE, isomap, PCA, PCA supervisé, etc. ". Certaines de ces méthodes d'intégration (apprentissage multiple) sont décrites ici . Mais cette "jolie image" est-elle réellement significative? Quelles informations possibles quelqu'un peut-il saisir en essayant de …
Existe-t-il des significations pour les dimensions d'un encastrement en T-SNE? Comme avec PCA, nous avons ce sens de maximisations de variance linéairement transformées, mais pour t-sne y a-t-il une intuition en plus de l'espace que nous définissons pour la cartographie et la minimisation de la distance KL?
Je voudrais faire une réduction de dimensionnalité sur près d'un million de vecteurs chacun avec 200 dimensions ( doc2vec). j'utiliseTSNE implémentation du sklearn.manifoldmodule pour cela et le problème majeur est la complexité du temps. Même avec method = barnes_hut, la vitesse de calcul est encore faible. Un certain temps, même …
J'ai une grande matrice clairsemée d'utilisateurs et d'articles qu'ils aiment (de l'ordre de 1 million d'utilisateurs et de 100 000 articles, avec un très faible niveau de rareté). J'explore les façons dont je pourrais effectuer une recherche sur kNN. Compte tenu de la taille de mon jeu de données et …
L'extraction et la sélection d'entités réduisent essentiellement la dimensionnalité des données, mais l'extraction d'entités rend également les données plus séparables, si j'ai raison. Quelle technique serait préférée à l'autre et quand? Je pensais, puisque la sélection des fonctionnalités ne modifie pas les données d'origine et ses propriétés, je suppose que …
Je comprends d'après l'article de Hinton que le T-SNE fait un bon travail en gardant les similitudes locales et un travail décent en préservant la structure mondiale (clusterisation). Cependant, je ne sais pas si les points apparaissant plus proches dans une visualisation 2D t-sne peuvent être supposés comme des points …
En raison de diverses malédictions de dimensionnalité , la précision et la vitesse de nombreuses techniques prédictives courantes se dégradent sur des données de grande dimension. Quelles sont les techniques / astuces / heuristiques les plus utiles qui aident à gérer efficacement les données de grande dimension? Par exemple, Certaines …
Je ne suis en aucun cas un expert en encodeurs automatiques ou en réseaux de neurones, alors pardonnez-moi si c'est une question stupide. À des fins de réduction de dimension ou de visualisation de clusters dans des données de haute dimension, nous pouvons utiliser un autoencodeur pour créer une représentation …
Bonjour, j'ai une trame de données avec de grandes valeurs catégorielles sur 1600 catégories. Est-ce que je peux trouver des alternatives pour ne pas avoir plus de 1600 colonnes. J'ai trouvé ce lien intéressant ci-dessous http://amunategui.github.io/feature-hashing/#sourcecode Mais ils se convertissent en classe / objet dont je ne veux pas. Je …
Une phrase couramment entendue dans le Machine Learning non supervisé est Les entrées de grande dimension vivent généralement sur ou à proximité d'un collecteur de faible dimension Qu'est-ce qu'une dimension? Qu'est-ce qu'un collecteur? Quelle est la différence? Pouvez-vous donner un exemple pour décrire les deux? Collecteur de Wikipedia: En mathématiques, …
J'ai un ensemble de données avec ~ 1M lignes et ~ 500K fonctionnalités clairsemées. Je veux réduire la dimensionnalité quelque part dans l'ordre des entités denses 1K-5K. sklearn.decomposition.PCAne fonctionne pas sur des données éparses, et j'ai essayé d'utiliser sklearn.decomposition.TruncatedSVDmais j'obtiens une erreur de mémoire assez rapidement. Quelles sont mes options …
Je prototype une application et j'ai besoin d'un modèle de langage pour calculer la perplexité sur certaines phrases générées. Existe-t-il un modèle de langage formé en python que je peux facilement utiliser? Quelque chose de simple comme model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.