Questions marquées «clustering»

L'analyse de cluster consiste à partitionner les données en sous-ensembles d'objets en fonction de leur «similitude» mutuelle, sans utiliser de connaissances préexistantes telles que les étiquettes de classe. [Les erreurs standard groupées et / ou les échantillons de cluster doivent être étiquetés comme tels; N'utilisez PAS la balise "clustering" pour eux.]

3
Distribution des probabilités de clustering - méthodes et métriques?
J'ai quelques points de données, contenant chacun 5 vecteurs de résultats discrets agglomérés, les résultats de chaque vecteur générés par une distribution différente, (le type spécifique dont je ne suis pas sûr, ma meilleure supposition est Weibull, avec un paramètre de forme variant quelque part autour de l'exponentielle de puissance …


1
k-means || alias K-Means évolutif ++
Bahman Bahmani et al. a introduit k-means ||, qui est une version plus rapide de k-means ++. Cet algorithme est tiré de la page 4 de leur article , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., et Vassilvitskii, S. (2012). K-means évolutif ++. Actes de la dotation VLDB , …

5
Comment effectuer l'imputation de valeurs dans un très grand nombre de points de données?
J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
Pouvez-vous comparer différentes méthodes de clustering sur un ensemble de données sans vérité de fond par validation croisée?
Actuellement, j'essaie d'analyser un ensemble de données de document texte qui n'a aucune vérité fondamentale. On m'a dit que vous pouvez utiliser la validation croisée k-fold pour comparer différentes méthodes de clustering. Cependant, les exemples que j'ai vus dans le passé utilisent une vérité fondamentale. Existe-t-il un moyen d'utiliser les …

5
Puis-je utiliser PCA pour effectuer une sélection de variables pour l'analyse de cluster?
Je dois réduire le nombre de variables pour effectuer une analyse de cluster. Mes variables sont fortement corrélées, j'ai donc pensé faire une analyse factorielle PCA (analyse en composantes principales). Cependant, si j'utilise les scores obtenus, mes grappes ne sont pas tout à fait correctes (par rapport aux classifications précédentes …

2
Regroupement des données spatiales dans R
J'ai un ensemble de données mensuelles sur la température de surface de la mer (SST) et je souhaite appliquer une méthodologie de cluster pour détecter les régions avec des modèles SST similaires. J'ai un ensemble de fichiers de données mensuels de 1985 à 2009 et je souhaite appliquer le clustering …
12 r  clustering  spatial 


1

2
Interprétation du résultat du clustering k-means dans R
J'utilisais l' kmeansinstruction de R pour effectuer l'algorithme k-means sur l'ensemble de données iris d'Anderson. J'ai une question sur certains paramètres que j'ai obtenus. Les résultats sont: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 Dans ce cas, que signifie "Cluster"? Est-ce la moyenne des distances de …



1
Que faire lorsque la matrice de covariance de l'échantillon n'est pas inversible?
Je travaille sur certaines techniques de regroupement, où pour un groupe donné de vecteurs de dimension d, je suppose une distribution normale multivariée et je calcule le vecteur moyen d'échantillon d et la matrice de covariance de l'échantillon. Ensuite , lorsque vous essayez de décider si un nouveau vecteur invisible, …


1
Sélection du modèle Mclust
Le package R mclustutilise BIC comme critère de sélection de modèle de cluster. D'après ma compréhension, un modèle avec le BIC le plus bas devrait être sélectionné par rapport aux autres modèles (si vous ne vous souciez que du BIC). Cependant, lorsque les valeurs BIC sont toutes négatives, la Mclustfonction …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.