Questions marquées «feature-selection»

Méthodes et principes de sélection d'un sous-ensemble d'attributs à utiliser dans une modélisation ultérieure

2
Sélection de fonctionnalités avec Random Forests
J'ai un ensemble de données avec principalement des variables financières (120 fonctionnalités, 4k exemples) qui sont pour la plupart hautement corrélées et très bruyantes (indicateurs techniques, par exemple), donc je voudrais sélectionner environ 20-30 max pour une utilisation ultérieure avec la formation de modèle (classification binaire - augmentation Diminution). Je …


4
Text Mining: comment regrouper des textes (par exemple des articles de presse) avec l'intelligence artificielle?
J'ai construit des réseaux de neurones (MLP (entièrement connecté), Elman (récurrent)) pour différentes tâches, comme jouer au Pong, classer les chiffres manuscrits et tout ça ... De plus, j'ai essayé de construire certains premiers réseaux de neurones convolutifs, par exemple pour classer des notes manuscrites à plusieurs chiffres, mais je …



5
Application des techniques d'apprentissage automatique à de petits échantillons d'études cliniques
Que pensez-vous de l'application de techniques d'apprentissage automatique, comme les forêts aléatoires ou la régression pénalisée (avec pénalité L1 ou L2, ou une combinaison de celles-ci) dans de petits échantillons d'études cliniques lorsque l'objectif est d'isoler des prédicteurs intéressants dans un contexte de classification? Ce n'est pas une question sur …

3
Pour les classificateurs linéaires, des coefficients plus importants impliquent-ils des caractéristiques plus importantes?
Je suis un ingénieur logiciel travaillant sur l'apprentissage automatique. D'après ma compréhension, la régression linéaire (comme OLS) et la classification linéaire (comme la régression logistique et SVM) font une prédiction basée sur un produit interne entre les coefficients formés et les variables caractéristiques :w⃗ w→\vec{w}x⃗ x→\vec{x} y^=f(w⃗ ⋅x⃗ )=f(∑iwixi)y^=f(w→⋅x→)=f(∑iwixi) \hat{y} …



1
Quelle méthode de comparaison multiple utiliser pour un modèle lmer: lsmeans ou glht?
J'analyse un ensemble de données à l'aide d'un modèle à effets mixtes avec un effet fixe (condition) et deux effets aléatoires (participant en raison de la conception et de la paire du sujet). Le modèle a été généré avec le lme4package: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Ensuite, j'ai effectué un test de rapport de …

5
Est-il préférable de faire une analyse exploratoire des données sur l'ensemble de données de formation uniquement?
Je fais l'analyse exploratoire des données (EDA) sur un ensemble de données. Ensuite, je sélectionnerai certaines fonctionnalités pour prédire une variable dépendante. La question est: dois-je faire l'EDA sur mon ensemble de données de formation uniquement? Ou dois-je joindre les ensembles de données de formation et de test ensemble, puis …

2
Différence entre la sélection d'entités basée sur la «régression F» et basée sur les valeurs ?
La comparaison d'entités utilise-t-elle F-regressionla même chose que la corrélation individuelle d'entités avec l'étiquette et l'observation de la valeur ?R2R2R^2 J'ai souvent vu mes collègues utiliser une F regressionsélection de fonctionnalités dans leur pipeline d'apprentissage automatique à partir de sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Certains me disent s'il vous plaît - pourquoi cela …



1
GAM vs LOESS vs splines
Contexte : Je veux tracer une ligne dans un nuage de points qui n'apparaît pas paramétrique, donc j'utilise geom_smooth()in ggplotin R. Il retourne automatiquement geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.