De wikipedia, La réduction de dimensionnalité ou réduction de dimension est le processus de réduction du nombre de variables aléatoires prises en compte. Elle peut être divisée en sélection et extraction de caractéristiques. Quelle est la différence entre la sélection de fonctionnalités et l'extraction de fonctionnalités? Quel est un exemple …
Quelles sont les pratiques courantes / meilleures pour gérer les données de temps pour une application d'apprentissage automatique? Par exemple, si dans le jeu de données, il existe une colonne avec l'horodatage de l'événement, telle que "2014-05-05", comment extraire des fonctionnalités utiles de cette colonne, le cas échéant? Merci d'avance!
Je travaille sur le problème avec trop de fonctionnalités et la formation de mes modèles prend beaucoup trop de temps. J'ai mis en œuvre un algorithme de sélection directe pour choisir les fonctionnalités. Cependant, je me demandais si scikit-learn avait un algorithme de sélection en aval / de régression pas …
J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine d'essayer de faire …
Plus précisément, ce que je recherche, ce sont des outils avec des fonctionnalités spécifiques à l'ingénierie des fonctionnalités. Je voudrais pouvoir facilement lisser, visualiser, combler les lacunes, etc. Quelque chose de similaire à MS Excel, mais qui a R comme langue sous-jacente au lieu de VB.
J'utilise actuellement XGBoost sur un ensemble de données avec 21 fonctionnalités (sélectionnées dans la liste de quelque 150 fonctionnalités), puis je les ai codées à chaud pour obtenir ~ 98 fonctionnalités. Certaines de ces 98 fonctionnalités sont quelque peu redondantes, par exemple: une variable (fonctionnalité) apparaît également comme BAAA etCBABA\frac{B}{A} …
Je participe à un concours de kaggle. L'ensemble de données comprend environ 100 fonctionnalités et toutes sont inconnues (en termes de ce qu'elles représentent réellement). Fondamentalement, ce ne sont que des chiffres. Les gens effectuent beaucoup d'ingénierie des fonctionnalités sur ces fonctionnalités. Je me demande comment exactement on est capable …
Le problème que j'aborde est de classer les textes courts en plusieurs classes. Mon approche actuelle consiste à utiliser les fréquences des termes pondérés tf-idf et à apprendre un classificateur linéaire simple (régression logistique). Cela fonctionne assez bien (environ 90% de macro F-1 sur le test, près de 100% sur …
Je me demande s'il existe des heuristiques sur le nombre de caractéristiques par rapport au nombre d'observations. Évidemment, si un certain nombre de caractéristiques est égal au nombre d'observations, le modèle se surajustera. En utilisant des méthodes clairsemées (LASSO, filet élastique), nous pouvons supprimer plusieurs fonctionnalités pour réduire le modèle. …
Je sais qu'il n'y a pas de réponse claire à cette question, mais supposons que j'ai un énorme réseau de neurones, avec beaucoup de données et je veux ajouter une nouvelle fonctionnalité en entrée. La "meilleure" façon serait de tester le réseau avec la nouvelle fonctionnalité et de voir les …
Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …
L'extraction et la sélection d'entités réduisent essentiellement la dimensionnalité des données, mais l'extraction d'entités rend également les données plus séparables, si j'ai raison. Quelle technique serait préférée à l'autre et quand? Je pensais, puisque la sélection des fonctionnalités ne modifie pas les données d'origine et ses propriétés, je suppose que …
Supposons que nous ayons deux types de fonctions d'entrée, catégoriques et continues. Les données catégorielles peuvent être représentées sous la forme d'un code unique A, tandis que les données continues ne sont qu'un vecteur B dans un espace à N dimensions. Il semble que le simple fait d'utiliser concat (A, …
Supposons un ensemble de données peu structurées (par exemple, des tables Web / des données ouvertes liées), composées de nombreuses sources de données. Il n'y a pas de schéma commun suivi par les données et chaque source peut utiliser des attributs de synonymes pour décrire les valeurs (par exemple "nationalité" …
J'ai un ensemble de données binaires très biaisé - j'ai 1000 fois plus d'exemples de la classe négative que de la classe positive. J'aimerais former un ensemble d'arbres (comme des arbres aléatoires supplémentaires ou une forêt aléatoire) sur ces données, mais il est difficile de créer des ensembles de données …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.