Questions marquées «dimensionality-reduction»

Fait référence aux techniques permettant de réduire un grand nombre de variables ou de dimensions réparties par les données à un plus petit nombre de dimensions tout en préservant autant d'informations sur les données que possible. Les principales méthodes comprennent PCA, MDS, Isomap, etc. Les deux principales sous-classes de techniques: l'extraction et la sélection d'entités.

1
Quel est le lien entre les moindres carrés partiels, la régression à rang réduit et la régression à composantes principales?
La régression à rang réduit et la régression à composantes principales ne sont-elles que des cas particuliers de moindres carrés partiels? Ce tutoriel (Page 6, "Comparaison des objectifs") indique que lorsque nous faisons des moindres carrés partiels sans projeter X ou Y (c'est-à-dire "non partiel"), cela devient une régression de …


4
Quelles variables expliquent quels composants de l'ACP et vice versa?
En utilisant ces données: head(USArrests) nrow(USArrests) Je peux faire un PCA ainsi: plot(USArrests) otherPCA <- princomp(USArrests) Je peux intégrer les nouveaux composants otherPCA$scores et la proportion de variance expliquée par les composantes avec summary(otherPCA) Mais que faire si je veux savoir quelles variables sont principalement expliquées par quels composants principaux? …

3
Choix des hyperparamètres à l'aide de T-SNE pour la classification
En tant que problème spécifique avec lequel je travaille (une compétition), j'ai le réglage suivant: 21 fonctionnalités (numériques sur [0,1]) et une sortie binaire. J'ai environ 100 K rangées. Le cadre semble être très bruyant. Moi et d'autres participants appliquons la génération de fonctionnalités pendant un certain temps et l'intégration …

1
Réduction supervisée de la dimensionnalité
J'ai un ensemble de données composé d'échantillons étiquetés 15K (de 10 groupes). Je souhaite appliquer une réduction de dimensionnalité en 2 dimensions, qui tiendrait compte de la connaissance des labels. Lorsque j'utilise des techniques de réduction de dimensionnalité "standard" non supervisées telles que l'ACP, le nuage de points semble n'avoir …


1
Algèbre de LDA. Pouvoir de discrimination de Fisher d'une variable et analyse discriminante linéaire
Apparemment, l'analyse de Fisher vise à maximiser simultanément la séparation entre les classes, tout en minimisant la dispersion à l'intérieur des classes. Une mesure utile du pouvoir de discrimination d'une variable est donc donnée par la quantité diagonale: .Bii/WiiBii/WiiB_{ii}/W_{ii} http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html Je comprends que la taille ( p x p) du …

3
PCA sur les données textuelles de grande dimension avant la classification aléatoire des forêts?
Est-il judicieux de faire de l'ACP avant d'effectuer une classification aléatoire des forêts? J'ai affaire à des données de texte de grande dimension, et je veux faire une réduction de fonctionnalités pour éviter la malédiction de la dimensionnalité, mais Random Forests ne fait-il pas déjà une sorte de réduction de …




5
Comment effectuer l'imputation de valeurs dans un très grand nombre de points de données?
J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 




En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.