Questions marquées «feature-selection»

Méthodes et principes de sélection d'un sous-ensemble d'attributs à utiliser dans une modélisation ultérieure

2
Est-il réellement correct d'effectuer une sélection de fonctionnalités non supervisée avant la validation croisée?
Dans The Elements of Statistical Learning , j'ai trouvé l'énoncé suivant: Il y a une qualification: les étapes initiales de dépistage non supervisé peuvent être effectuées avant de laisser des échantillons. Par exemple, nous pourrions sélectionner les 1000 prédicteurs présentant la variance la plus élevée parmi les 50 échantillons, avant …


6
Comment préparer / construire des fonctionnalités pour la détection d'anomalies (données de sécurité réseau)
Mon objectif est d'analyser les journaux du réseau (par exemple, Apache, syslog, audit de sécurité Active Directory, etc.) à l'aide de la détection de cluster / anomalie à des fins de détection d'intrusion. Dans les journaux, j'ai beaucoup de champs de texte comme l'adresse IP, le nom d'utilisateur, le nom …

4
Lasso-ing l'ordre d'un décalage?
Supposons que j'ai des données longitudinales de la forme (j'ai plusieurs observations, ce n'est que la forme d'une seule). Je suis intéressé par les restrictions sur . Un sans restriction équivaut à prendre avec .Y =( Y1, … , YJ) ∼ N( μ , Σ )Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, …

1
Comment comparer les événements observés aux événements attendus?
Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
Test de permutation aléatoire pour la sélection des fonctionnalités
Je suis confus au sujet de l'analyse de permutation pour la sélection d'entités dans un contexte de régression logistique. Pourriez-vous fournir une explication claire du test de permutation aléatoire et comment s'applique-t-il à la sélection des fonctionnalités? Peut-être avec un algorithme et des exemples exacts. Enfin, comment se compare-t-il aux …

4
Comment effectuer plusieurs tests chi carré post-hoc sur une table 2 X 3?
Mon ensemble de données comprend la mortalité totale ou la survie d'un organisme sur trois types de sites: côtier, médian et extracôtier. Les nombres dans le tableau ci-dessous représentent le nombre de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Je voudrais savoir si …



3
Calcul du meilleur sous-ensemble de prédicteurs pour la régression linéaire
Pour la sélection des prédicteurs en régression linéaire multivariée avec prédicteurs appropriés, quelles méthodes sont disponibles pour trouver un sous-ensemble «optimal» des prédicteurs sans tester explicitement tous les sous-ensembles de ? Dans 'Applied Survival Analysis', Hosmer et Lemeshow font référence à la méthode de Kuk, mais je ne trouve pas …


1
Comment gérer la modification de la longueur du vecteur d'entrée avec les réseaux de neurones
Je veux former un réseau neuronal avec une séquence de caractères comme vecteur d'entrée. Les exemples d'apprentissage ont une longueur différente et pour cette raison, je ne sais pas comment les représenter. Disons que j'ai deux exemples de séquences, voici des noms: john doe maurice delanoe Le premier exemple est …


1
Dans la régression multiple, pourquoi les interactions sont-elles modélisées comme des produits, et pas autre chose, des prédicteurs?
Envisagez une régression linéaire multiple. Cette question peut être d'une simplicité trompeuse, mais j'essaie de comprendre intuitivement pourquoi, disons que si j'ai des prédicteurs X1 et X2, les interactions entre ces prédicteurs peuvent être correctement capturées par X1 * X2. Je sais que les termes d'interaction sont modélisés comme des …

2
Sélection d'entités sur un modèle linéaire généralisé hiérarchique bayésien
Je cherche à estimer un GLM hiérarchique mais avec une sélection de caractéristiques pour déterminer quelles covariables sont pertinentes au niveau de la population à inclure. Supposons que j'ai GGG groupes avec NNN observations et KKKcovariables possibles C'est-à-dire que j'ai une matrice de conception de covariables , résultats . Les …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.