Statistiques et Big Data feature-selection

2

Est-il réellement correct d'effectuer une sélection de fonctionnalités non supervisée avant la validation croisée?

Dans The Elements of Statistical Learning , j'ai trouvé l'énoncé suivant: Il y a une qualification: les étapes initiales de dépistage non supervisé peuvent être effectuées avant de laisser des échantillons. Par exemple, nous pourrions sélectionner les 1000 prédicteurs présentant la variance la plus élevée parmi les 50 échantillons, avant …

9 machine-learning cross-validation feature-selection

2

Sélection de fonctionnalités pour les problèmes de clustering

J'essaie de regrouper différents ensembles de données en utilisant des algorithmes non supervisés (clustering). Le problème est que j'ai de nombreuses fonctionnalités (~ 500) et une petite quantité de cas (200-300). Jusqu'à présent, je ne faisais que des problèmes de classification pour lesquels j'avais toujours étiqueté les données comme des …

9 r clustering feature-selection unsupervised-learning

6

Comment préparer / construire des fonctionnalités pour la détection d'anomalies (données de sécurité réseau)

Mon objectif est d'analyser les journaux du réseau (par exemple, Apache, syslog, audit de sécurité Active Directory, etc.) à l'aide de la détection de cluster / anomalie à des fins de détection d'intrusion. Dans les journaux, j'ai beaucoup de champs de texte comme l'adresse IP, le nom d'utilisateur, le nom …

9 feature-selection outliers unsupervised-learning feature-construction

4

Lasso-ing l'ordre d'un décalage?

Supposons que j'ai des données longitudinales de la forme (j'ai plusieurs observations, ce n'est que la forme d'une seule). Je suis intéressé par les restrictions sur . Un sans restriction équivaut à prendre avec .Y =( Y1, … , YJ) ∼ N( μ , Σ )Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, …

9 feature-selection lasso shrinkage

1

Comment comparer les événements observés aux événements attendus?

Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

Test de permutation aléatoire pour la sélection des fonctionnalités

Je suis confus au sujet de l'analyse de permutation pour la sélection d'entités dans un contexte de régression logistique. Pourriez-vous fournir une explication claire du test de permutation aléatoire et comment s'applique-t-il à la sélection des fonctionnalités? Peut-être avec un algorithme et des exemples exacts. Enfin, comment se compare-t-il aux …

9 regression logistic feature-selection permutation-test shrinkage

4

Comment effectuer plusieurs tests chi carré post-hoc sur une table 2 X 3?

Mon ensemble de données comprend la mortalité totale ou la survie d'un organisme sur trois types de sites: côtier, médian et extracôtier. Les nombres dans le tableau ci-dessous représentent le nombre de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Je voudrais savoir si …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

2

Est-il possible d'utiliser le noyau PCA pour la sélection des fonctionnalités?

Est-il possible d'utiliser l'analyse du composant principal du noyau (kPCA) pour l'indexation sémantique latente (LSI) de la même manière que PCA est utilisé? J'exécute LSI dans R en utilisant la prcompfonction PCA et j'extrais les caractéristiques avec les charges les plus élevées à partir des premiers composants. Par cela, j'obtiens …

9 r pca feature-selection kernel-trick

3

L'utilisation du vernis médian pour la sélection des fonctionnalités

Dans un article que je lisais récemment, je suis tombé sur le morceau suivant dans leur section d'analyse des données: Le tableau de données a ensuite été divisé en tissus et lignées cellulaires, et les deux sous-tableaux ont été polis séparément (les lignes et les colonnes ont été ajustées de …

9 feature-selection median genetics

3

Calcul du meilleur sous-ensemble de prédicteurs pour la régression linéaire

Pour la sélection des prédicteurs en régression linéaire multivariée avec prédicteurs appropriés, quelles méthodes sont disponibles pour trouver un sous-ensemble «optimal» des prédicteurs sans tester explicitement tous les sous-ensembles de ? Dans 'Applied Survival Analysis', Hosmer et Lemeshow font référence à la méthode de Kuk, mais je ne trouve pas …

9 modeling regression multivariable model-selection feature-selection

1

Pourquoi le lasso dans matlab est-il beaucoup plus lent que glmnet dans R (10 min contre ~ 1 s)?

J'ai observé que la fonction lasso dans MATLAB est relativement lente. Je gère de nombreux problèmes de régression, avec généralement 1 à 100 prédicteurs et 200 à 500 observations. Dans certains cas, le lasso s'est avéré extrêmement lent (pour résoudre un problème de régression, il a fallu plusieurs minutes). J'ai …

9 regression feature-selection regularization

1

Comment gérer la modification de la longueur du vecteur d'entrée avec les réseaux de neurones

Je veux former un réseau neuronal avec une séquence de caractères comme vecteur d'entrée. Les exemples d'apprentissage ont une longueur différente et pour cette raison, je ne sais pas comment les représenter. Disons que j'ai deux exemples de séquences, voici des noms: john doe maurice delanoe Le premier exemple est …

9 machine-learning neural-networks feature-selection natural-language

3

Comment utiliser les principaux composants comme prédicteurs dans GLM?

Comment utiliser la sortie d'une analyse en composantes principales (ACP) dans un modèle linéaire généralisé (GLM), en supposant que l'ACP est utilisée pour la sélection des variables pour le GLM? Clarification: je veux utiliser PCA pour éviter d'utiliser des variables corrélées dans le GLM. Cependant, PCA me donne une sortie …

9 pca generalized-linear-model feature-selection

1

Dans la régression multiple, pourquoi les interactions sont-elles modélisées comme des produits, et pas autre chose, des prédicteurs?

Envisagez une régression linéaire multiple. Cette question peut être d'une simplicité trompeuse, mais j'essaie de comprendre intuitivement pourquoi, disons que si j'ai des prédicteurs X1 et X2, les interactions entre ces prédicteurs peuvent être correctement capturées par X1 * X2. Je sais que les termes d'interaction sont modélisés comme des …

8 multiple-regression feature-selection interaction

2

Sélection d'entités sur un modèle linéaire généralisé hiérarchique bayésien

Je cherche à estimer un GLM hiérarchique mais avec une sélection de caractéristiques pour déterminer quelles covariables sont pertinentes au niveau de la population à inclure. Supposons que j'ai GGG groupes avec NNN observations et KKKcovariables possibles C'est-à-dire que j'ai une matrice de conception de covariables , résultats . Les …

8 machine-learning bayesian feature-selection hierarchical-bayesian shrinkage

Questions marquées «feature-selection»