Science des données feature-selection

2

Quelles fonctionnalités sont généralement utilisées à partir des arbres d'analyse dans le processus de classification en PNL?

J'explore différents types de structures d'arbres d'analyse. Les deux structures d'arbre d'analyse largement connues sont: a) l'arbre d'analyse basé sur les circonscriptions et b) les structures d'arbre d'analyse basées sur les dépendances. Je suis capable d'utiliser les deux types de structures d'arbre d'analyse en utilisant le package Stanford NLP. Cependant, …

13 machine-learning nlp feature-selection feature-extraction

1

Quelle est la différence entre un encodage à chaud et un encodage à exclure?

Je lis une présentation et il recommande de ne pas utiliser l'encodage de sortie, mais il est correct avec un encodage à chaud. Je pensais qu'ils étaient tous les deux identiques. Quelqu'un peut-il décrire les différences entre eux?

13 machine-learning data-mining feature-selection feature-extraction feature-engineering

1

Importance des caractéristiques avec des caractéristiques catégorielles à cardinalité élevée pour la régression (variable dépendante numérique)

J'essayais d'utiliser les importances de fonctionnalités de Random Forests pour effectuer une sélection de fonctionnalités empiriques pour un problème de régression où toutes les fonctionnalités sont catégoriques et beaucoup d'entre elles ont de nombreux niveaux (de l'ordre de 100-1000). Étant donné que l'encodage à chaud crée une variable fictive pour …

12 scikit-learn feature-selection random-forest xgboost categorical-data

1

Sélection de fonctionnalités à l'aide d'importances de fonctionnalités dans des forêts aléatoires avec scikit-learn

J'ai tracé les importances des fonctionnalités dans des forêts aléatoires avec scikit-learn . Afin d'améliorer la prédiction à l'aide de forêts aléatoires, comment puis-je utiliser les informations de tracé pour supprimer des entités? C'est-à-dire comment repérer si une fonctionnalité est inutile ou pire encore une diminution des performances des forêts …

12 feature-selection random-forest scikit-learn

3

Existe-t-il de bons modèles de langage prêts à l'emploi pour python?

Je prototype une application et j'ai besoin d'un modèle de langage pour calculer la perplexité sur certaines phrases générées. Existe-t-il un modèle de langage formé en python que je peux facilement utiliser? Quelque chose de simple comme model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

4

Technique d'extraction de fonctionnalités - Synthèse d'une séquence de données

Je construis souvent un modèle (classification ou régression) où j'ai des variables prédictives qui sont des séquences et j'ai essayé de trouver des recommandations techniques pour les résumer de la meilleure façon possible pour les inclure comme prédicteurs dans le modèle. À titre d'exemple concret, disons qu'un modèle est en …

11 machine-learning feature-selection time-series

4

Lequel en premier: analyse comparative des algorithmes, sélection des fonctionnalités, réglage des paramètres?

En essayant de faire par exemple une classification, mon approche est actuellement de essayez d'abord différents algorithmes et comparez-les effectuer la sélection des fonctionnalités sur le meilleur algorithme parmi 1 régler les paramètres en utilisant les fonctionnalités et l'algorithme sélectionnés Cependant, je ne peux souvent pas me convaincre qu'il peut …

11 feature-selection parameter-estimation

5

Quand supprimer les variables corrélées

Quelqu'un peut-il suggérer quelle est la bonne étape pour supprimer les variables corrélées avant l'ingénierie des fonctionnalités ou après l'ingénierie des fonctionnalités?

11 machine-learning feature-selection data-science-model

3

La sélection des fonctionnalités est-elle nécessaire?

Je voudrais exécuter un modèle d'apprentissage automatique comme la forêt aléatoire, le renforcement du gradient ou SVM sur mon jeu de données. Il y a plus de 200 variables prédictives dans mon jeu de données et mes classes cibles sont une variable binaire. Dois-je exécuter la sélection des fonctions avant …

11 machine-learning predictive-modeling feature-selection random-forest

2

Régression linéaire et mise à l'échelle des données

Le graphique suivant montre les coefficients obtenus par régression linéaire (avec mpgcomme variable cible et tous les autres comme prédicteurs). Pour le jeu de données mtcars ( ici et ici ) avec et sans mise à l'échelle des données: Comment interpréter ces résultats? Les variables hpet ne dispsont significatives que …

10 feature-selection linear-regression feature-scaling

3

Meilleures langues pour le calcul scientifique [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement les réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle se concentre sur un problème uniquement en modifiant ce message . Fermé il y a 5 ans . Il semble que la plupart des …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

4

Comment comparer les performances des méthodes de sélection des fonctionnalités?

Il existe plusieurs approches de sélection de caractéristiques / sélection de variables (voir par exemple Guyon et Elisseeff, 2003 ; Liu et al., 2010 ): méthodes de filtrage (par exemple, basées sur la corrélation, basées sur l'entropie, basées sur l'importance aléatoire des forêts), les méthodes d'encapsulation (par exemple, la recherche …

10 feature-selection performance model-selection

4

Relation entre la sélection des caractéristiques et la précision de la classification

L'une des méthodes pour sélectionner un sous-ensemble de vos fonctionnalités disponibles pour votre classificateur consiste à les classer en fonction d'un critère (tel que le gain d'informations), puis à calculer la précision à l'aide de votre classificateur et d'un sous-ensemble des fonctionnalités classées. Par exemple, si vos fonctionnalités le sont …

10 machine-learning feature-selection

7

Les projets de science des données expliqués étape par étape?

Je recherche un site internet ou un livre où plusieurs exemples pratiques sont donnés pas à pas, expliquant comment ils choisissent les fonctionnalités pertinentes, la procédure de sélection des modèles, etc ...

10 machine-learning feature-selection

3

Les coordonnées GPS (latitude et longitude) peuvent-elles être utilisées comme entités dans un modèle linéaire?

J'ai des ensembles de données qui contiennent, parmi de nombreuses fonctionnalités, des coordonnées GPS (latitude et longitude). Je voudrais utiliser ces ensembles de données pour explorer des problèmes tels que: (1) calculer l'ETA pour conduire entre les points de début et de fin; et (2) estimer le degré de criminalité …

10 machine-learning feature-selection linear-regression feature-extraction geospatial

Questions marquées «feature-selection»