Questions marquées «feature-selection»

Méthodes et principes de sélection d'un sous-ensemble d'attributs à utiliser dans une modélisation ultérieure

11
Qu'est-ce que la réduction de dimensionnalité? Quelle est la différence entre la sélection de fonctionnalités et l'extraction?
De wikipedia, La réduction de dimensionnalité ou réduction de dimension est le processus de réduction du nombre de variables aléatoires prises en compte. Elle peut être divisée en sélection et extraction de caractéristiques. Quelle est la différence entre la sélection de fonctionnalités et l'extraction de fonctionnalités? Quel est un exemple …

10
Apprentissage automatique - fonctions d'ingénierie à partir de données de date / heure
Quelles sont les pratiques courantes / meilleures pour gérer les données de temps pour une application d'apprentissage automatique? Par exemple, si dans le jeu de données, il existe une colonne avec l'horodatage de l'événement, telle que "2014-05-05", comment extraire des fonctionnalités utiles de cette colonne, le cas échéant? Merci d'avance!


1


4
XGBoost gère-t-il la multicolinéarité par lui-même?
J'utilise actuellement XGBoost sur un ensemble de données avec 21 fonctionnalités (sélectionnées dans la liste de quelque 150 fonctionnalités), puis je les ai codées à chaud pour obtenir ~ 98 fonctionnalités. Certaines de ces 98 fonctionnalités sont quelque peu redondantes, par exemple: une variable (fonctionnalité) apparaît également comme BAAA etCBABA\frac{B}{A} …

3
Comment effectuer l'ingénierie des fonctionnalités sur des fonctionnalités inconnues?
Je participe à un concours de kaggle. L'ensemble de données comprend environ 100 fonctionnalités et toutes sont inconnues (en termes de ce qu'elles représentent réellement). Fondamentalement, ce ne sont que des chiffres. Les gens effectuent beaucoup d'ingénierie des fonctionnalités sur ces fonctionnalités. Je me demande comment exactement on est capable …

2
Catégorisation de texte: combiner différents types de fonctionnalités
Le problème que j'aborde est de classer les textes courts en plusieurs classes. Mon approche actuelle consiste à utiliser les fréquences des termes pondérés tf-idf et à apprendre un classificateur linéaire simple (régression logistique). Cela fonctionne assez bien (environ 90% de macro F-1 sur le test, près de 100% sur …

4
Des «règles de base» sur le nombre de fonctionnalités par rapport au nombre d'instances? (petits ensembles de données)
Je me demande s'il existe des heuristiques sur le nombre de caractéristiques par rapport au nombre d'observations. Évidemment, si un certain nombre de caractéristiques est égal au nombre d'observations, le modèle se surajustera. En utilisant des méthodes clairsemées (LASSO, filet élastique), nous pouvons supprimer plusieurs fonctionnalités pour réduire le modèle. …


5
agrandir la carte thermique de Seaborn
Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
Sélection des fonctionnalités vs extraction des fonctionnalités. Lequel utiliser quand?
L'extraction et la sélection d'entités réduisent essentiellement la dimensionnalité des données, mais l'extraction d'entités rend également les données plus séparables, si j'ai raison. Quelle technique serait préférée à l'autre et quand? Je pensais, puisque la sélection des fonctionnalités ne modifie pas les données d'origine et ses propriétés, je suppose que …

3
Comment combiner des fonctionnalités d'entrée catégorielles et continues pour la formation d'un réseau de neurones
Supposons que nous ayons deux types de fonctions d'entrée, catégoriques et continues. Les données catégorielles peuvent être représentées sous la forme d'un code unique A, tandis que les données continues ne sont qu'un vecteur B dans un espace à N dimensions. Il semble que le simple fait d'utiliser concat (A, …


4
Quelles sont les implications pour la formation d'un ensemble d'arbres avec des ensembles de données fortement biaisés?
J'ai un ensemble de données binaires très biaisé - j'ai 1000 fois plus d'exemples de la classe négative que de la classe positive. J'aimerais former un ensemble d'arbres (comme des arbres aléatoires supplémentaires ou une forêt aléatoire) sur ces données, mais il est difficile de créer des ensembles de données …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.