Questions marquées «feature-selection»

Méthodes et principes de sélection d'un sous-ensemble d'attributs à utiliser dans une modélisation ultérieure

1
Arbres de décision: mise à l'échelle variable (fonctionnalité) et normalisation variable (fonctionnalité) (réglage) requises dans quelles implémentations?
Dans de nombreux algorithmes d'apprentissage automatique, la mise à l'échelle des fonctionnalités (aka mise à l'échelle variable, normalisation) est une étape de pré-traitement courante Wikipedia - Mise à l'échelle des fonctionnalités - cette question était proche Question # 41704 - Comment et pourquoi la normalisation et la mise à l'échelle …

3
La sélection des fonctionnalités doit-elle être effectuée uniquement sur les données d'entraînement (ou toutes les données)?
La sélection des fonctionnalités doit-elle être effectuée uniquement sur les données d'entraînement (ou toutes les données)? J'ai parcouru des discussions et des articles tels que Guyon (2003) et Singhi et Liu (2006) , mais je ne suis toujours pas sûr de la bonne réponse. La configuration de mon expérience est …

1
Comment LASSO sélectionne-t-il parmi les prédicteurs colinéaires?
Je cherche une réponse intuitive pourquoi un modèle GLM LASSO sélectionne un prédicteur spécifique dans un groupe de facteurs hautement corrélés, et pourquoi il le fait différemment, puis la meilleure sélection de fonctionnalités de sous-ensemble. D'après la géométrie du LASSO montrée sur la figure 2 dans Tibshirani 1996, je suis …



4
Existe-t-il un moyen d'utiliser la validation croisée pour effectuer une sélection de variable / fonctionnalité dans R?
J'ai un ensemble de données avec environ 70 variables que j'aimerais réduire. Ce que je cherche à faire, c'est d'utiliser CV pour trouver les variables les plus utiles de la manière suivante. 1) Sélectionnez au hasard disons 20 variables. 2) Utilisez stepwise/ LASSO/ lars/ etc pour choisir les variables les …

4
Amélioration de la classification SVM du diabète
432607 × 136432607×136432607 \times 136Y11 %11%11\%N89 %89%89\% J'utilise uniquement 15des 136variables indépendantes de l'ensemble de données. L'une des raisons de la réduction de l'ensemble de données était d'avoir plus d'échantillons d'apprentissage lorsque les lignes contenant NAs sont omises. Ces 15variables ont été sélectionnées après l'exécution de méthodes statistiques telles que …


1
Comment quantifier la redondance des fonctionnalités?
J'ai trois fonctionnalités que j'utilise pour résoudre un problème de classification. À l'origine, ces caractéristiques produisaient des valeurs booléennes, ce qui m'a permis d'évaluer leur redondance en examinant à quel point les ensembles de classifications positives et négatives se chevauchaient. Maintenant, j'ai étendu les fonctionnalités pour produire des valeurs réelles …

3
Identification des fonctionnalités filtrées après la sélection des fonctionnalités avec scikit learn
Voici mon code pour la méthode de sélection des fonctionnalités en Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Mais après avoir obtenu un nouveau X (variable dépendante - …


3
Les variables indépendantes à faible corrélation avec la variable dépendante peuvent-elles être des prédicteurs significatifs?
J'ai huit variables indépendantes et une dépendante. J'ai exécuté une matrice de corrélation, et 5 d'entre eux ont une faible corrélation avec le DV. J'ai ensuite exécuté une régression multiple pas à pas pour voir si certains / tous les IV peuvent prédire le DV. La régression a montré que …

3
Comment réduire les prédicteurs de la bonne façon pour un modèle de régression logistique
J'ai donc lu quelques livres (ou des parties d'entre eux) sur la modélisation (F. Harrell's "Regression Modeling Strategies" entre autres), car ma situation actuelle est que je dois faire un modèle logistique basé sur des données de réponse binaires. J'ai à la fois des données continues, catégoriques et binaires (prédicteurs) …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.