Statistiques et Big Data feature-selection

1

Le lasso et le filet élastique ne sont pas en mesure de traiter des variables de plus de deux catégories et, par conséquent, une répartition des variables catégorielles en variables muettes est nécessaire pour l'application de ces méthodes. Cela peut entraîner plusieurs problèmes et il existe donc des extensions du …

8 machine-learning categorical-data feature-selection lasso elastic-net

1

Utilisation de mots de sujet générés par LDA pour représenter un document

Je veux faire la classification des documents en représentant chaque document comme un ensemble de fonctionnalités. Je sais qu'il y a plusieurs façons: BOW, TFIDF, ... Je veux utiliser l'allocation de Dirichlet latente (LDA) pour extraire les mots-clés de rubrique de CHAQUE document UNIQUE. le document est représenté par ces …

8 feature-selection text-mining topic-models latent-dirichlet-alloc

3

La sélection des caractéristiques de Boruta (dans R) prend-elle en compte la corrélation entre les variables?

Je suis un peu novice en R et en sélection de fonctionnalités, et j'ai essayé le package Boruta pour sélectionner (diminuer) mon nombre de variables (n = 40). Je pensais que cette méthode prenait également en compte la corrélation possible entre les variables, cependant, deux (parmi les 20 variables sélectionnées) …

8 r feature-selection random-forest boruta

2

Pourquoi un modèle statistique serait-il surchargé s'il était doté d'un énorme ensemble de données?

Mon projet actuel peut m'obliger à construire un modèle pour prédire le comportement d'un certain groupe de personnes. l'ensemble de données de formation ne contient que 6 variables (id est uniquement à des fins d'identification): id, age, income, gender, job category, monthly spend dans laquelle se monthly spendtrouve la variable …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

6

L'utilisation des mêmes données pour la sélection d'entités et la validation croisée est-elle biaisée ou non?

Nous avons un petit ensemble de données (environ 250 échantillons * 100 entités) sur lequel nous voulons construire un classificateur binaire après avoir sélectionné le meilleur sous-ensemble d'entités. Disons que nous partitionnons les données en: Formation, validation et tests Pour la sélection des fonctionnalités, nous appliquons un modèle de wrapper …

8 machine-learning cross-validation feature-selection train

3

Puis-je effectuer une recherche exhaustive avec validation croisée pour la sélection des fonctionnalités?

J'ai lu certains articles sur la sélection des fonctionnalités et la validation croisée, mais j'ai encore des questions sur la bonne procédure. Supposons que j'ai un ensemble de données avec 10 fonctionnalités et que je souhaite sélectionner les meilleures fonctionnalités. Supposons également que j'utilise un classificateur de voisin le plus …

8 cross-validation model-selection feature-selection

1

Intervalles de confiance lors de l'utilisation du théorème de Bayes

Je calcule des probabilités conditionnelles et des intervalles de confiance à 95% associés. Pour bon nombre de mes cas, j'ai un décompte simple des xsuccès des nessais (à partir d'un tableau de contingence), donc je peux utiliser un intervalle de confiance binomial, tel que celui fourni par binom.confint(x, n, method='exact')dans …

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

Questions marquées «feature-selection»