Dans de nombreux algorithmes d'apprentissage automatique, la mise à l'échelle des fonctionnalités (aka mise à l'échelle variable, normalisation) est une étape de pré-traitement courante Wikipedia - Mise à l'échelle des fonctionnalités - cette question était proche Question # 41704 - Comment et pourquoi la normalisation et la mise à l'échelle …
La sélection des fonctionnalités doit-elle être effectuée uniquement sur les données d'entraînement (ou toutes les données)? J'ai parcouru des discussions et des articles tels que Guyon (2003) et Singhi et Liu (2006) , mais je ne suis toujours pas sûr de la bonne réponse. La configuration de mon expérience est …
Je cherche une réponse intuitive pourquoi un modèle GLM LASSO sélectionne un prédicteur spécifique dans un groupe de facteurs hautement corrélés, et pourquoi il le fait différemment, puis la meilleure sélection de fonctionnalités de sous-ensemble. D'après la géométrie du LASSO montrée sur la figure 2 dans Tibshirani 1996, je suis …
J'essaie d'appliquer l'idée d'information mutuelle à la sélection des fonctionnalités, comme décrit dans ces notes de cours (à la page 5). Ma plateforme est Matlab. Un problème que je trouve lors du calcul d'informations mutuelles à partir de données empiriques est que le nombre est toujours biaisé vers le haut. …
J'ai accès à un très grand ensemble de données. Les données proviennent d' enregistrements MEG de personnes écoutant des extraits musicaux, de l'un des quatre genres. Les données sont les suivantes: 6 sujets 3 répétitions expérimentales (époques) 120 essais par époque 8 secondes de données par essai à 500 Hz …
J'ai un ensemble de données avec environ 70 variables que j'aimerais réduire. Ce que je cherche à faire, c'est d'utiliser CV pour trouver les variables les plus utiles de la manière suivante. 1) Sélectionnez au hasard disons 20 variables. 2) Utilisez stepwise/ LASSO/ lars/ etc pour choisir les variables les …
432607 × 136432607×136432607 \times 136Y11 %11%11\%N89 %89%89\% J'utilise uniquement 15des 136variables indépendantes de l'ensemble de données. L'une des raisons de la réduction de l'ensemble de données était d'avoir plus d'échantillons d'apprentissage lorsque les lignes contenant NAs sont omises. Ces 15variables ont été sélectionnées après l'exécution de méthodes statistiques telles que …
Une question de débutant ici. J'effectue actuellement une régression non paramétrique en utilisant le package np dans R. J'ai 7 fonctionnalités et en utilisant une approche par force brute, j'ai identifié les meilleures 3. Mais, bientôt j'aurai bien plus de 7 fonctionnalités! Ma question est de savoir quelles sont les …
J'ai trois fonctionnalités que j'utilise pour résoudre un problème de classification. À l'origine, ces caractéristiques produisaient des valeurs booléennes, ce qui m'a permis d'évaluer leur redondance en examinant à quel point les ensembles de classifications positives et négatives se chevauchaient. Maintenant, j'ai étendu les fonctionnalités pour produire des valeurs réelles …
Voici mon code pour la méthode de sélection des fonctionnalités en Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Mais après avoir obtenu un nouveau X (variable dépendante - …
Je me demande si c'est une bonne idée de supprimer ces variables avec une valeur d'importance de variable négative ("% IncMSE") dans un contexte de régression. Et si cela me donne une meilleure prédiction? Qu'est-ce que tu penses?
J'ai huit variables indépendantes et une dépendante. J'ai exécuté une matrice de corrélation, et 5 d'entre eux ont une faible corrélation avec le DV. J'ai ensuite exécuté une régression multiple pas à pas pour voir si certains / tous les IV peuvent prédire le DV. La régression a montré que …
J'ai donc lu quelques livres (ou des parties d'entre eux) sur la modélisation (F. Harrell's "Regression Modeling Strategies" entre autres), car ma situation actuelle est que je dois faire un modèle logistique basé sur des données de réponse binaires. J'ai à la fois des données continues, catégoriques et binaires (prédicteurs) …
J'ai un ensemble de données avec trois variables, où toutes les variables sont quantitatives. Appelons-le , et . Je monte un modèle de régression dans une perspective bayésienne via MCMC avecyyyX1X1x_1X2X2x_2rjags J'ai fait une analyse exploratoire et le nuage de points de suggère d'utiliser un terme quadratique. J'ai ensuite monté …
Je veux calculer l'importance de chaque fonction d'entrée en utilisant un modèle profond. Mais je n'ai trouvé qu'un seul article sur la sélection des fonctionnalités à l'aide de l'apprentissage en profondeur - la sélection des fonctionnalités approfondies . Ils insèrent une couche de nœuds connectés directement à chaque entité, avant …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.