Questions marquées «feature-selection»

Méthodes et principes de sélection d'un sous-ensemble d'attributs à utiliser dans une modélisation ultérieure

5
Avons-nous encore besoin de sélectionner des fonctionnalités lors de l'utilisation d'algorithmes de régularisation?
J'ai une question concernant la nécessité d'utiliser des méthodes de sélection d'entités (forêts aléatoires, valeur d'importance des caractéristiques ou méthodes de sélection d'entités univariées, etc.) avant d'exécuter un algorithme d'apprentissage statistique. Nous savons que pour éviter le sur-ajustement, nous pouvons introduire une pénalité de régularisation sur les vecteurs de poids. …


2
Comment est-il logique de faire OLS après la sélection de variable LASSO?
Récemment, j'ai découvert que dans la littérature d'économétrie appliquée, lorsqu'il s'agit de problèmes de sélection de caractéristiques, il n'est pas rare d'effectuer LASSO suivi d'une régression OLS en utilisant les variables sélectionnées. Je me demandais comment qualifier la validité d'une telle procédure. Cela causera-t-il des problèmes tels que des variables …

1
Que conclure de cette intrigue au lasso (glmnet)
Voici le tracé de glmnet avec alpha par défaut (1, donc lasso) en utilisant mtcarsl'ensemble de données dans R avec mpgcomme DV et d'autres comme variables prédictives. glmnet(as.matrix(mtcars[-1]), mtcars[,1]) Que pouvons-nous conclure de ce graphique concernant différentes variables, en particulier am, cylet wt(lignes rouges, noires et bleu clair)? Comment formulerions-nous …




2
Vitesse, dépenses de calcul de PCA, LASSO, filet élastique
J'essaie de comparer la complexité de calcul / la vitesse d'estimation de trois groupes de méthodes de régression linéaire comme distingué dans Hastie et al. "Elements of Statistical Learning" (2e éd.), Chapitre 3: Sélection de sous-ensemble Méthodes de retrait Méthodes utilisant des directions d'entrée dérivées (PCR, PLS) La comparaison peut …



5
Variabilité dans les résultats cv.glmnet
J'utilise cv.glmnetpour trouver des prédicteurs. La configuration que j'utilise est la suivante: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Pour vous assurer que les résultats sont reproductibles I set.seed(1). Les résultats sont très variables. J'ai exécuté exactement le même code 100 pour voir à quel point les résultats étaient variables. Dans les …

3
La construction d'un classificateur multiclasse est-elle meilleure que plusieurs classificateurs binaires?
J'ai besoin de classer les URL en catégories. Disons que j'ai 15 catégories que je prévois de mettre à zéro chaque URL. Un classificateur à 15 voies est-il meilleur? Où j'ai 15 étiquettes et génère des fonctionnalités pour chaque point de données. Ou construire 15 classificateurs binaires, par exemple: film …

5
Comprendre les caractéristiques les plus importantes pour la régression logistique
J'ai construit un classificateur de régression logistique qui est très précis sur mes données. Maintenant, je veux mieux comprendre pourquoi cela fonctionne si bien. Plus précisément, j'aimerais classer les fonctionnalités qui apportent la plus grande contribution (quelles fonctionnalités sont les plus importantes) et, idéalement, quantifier dans quelle mesure chaque fonctionnalité …


1
Dans une forêt aléatoire, un% IncMSE plus important est-il meilleur ou pire?
Une fois que j'ai construit un modèle de forêt aléatoire (de régression) dans R, l'appel rf$importanceme fournit deux mesures pour chaque variable prédictive, %IncMSEet IncNodePurity. L'interprétation selon laquelle les variables prédictives avec des %IncMSEvaleurs plus petites sont plus importantes que les variables prédictives avec des %IncMSEvaleurs plus grandes ? Et …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.