Questions marquées «clustering»

L'analyse de cluster consiste à partitionner les données en sous-ensembles d'objets en fonction de leur «similitude» mutuelle, sans utiliser de connaissances préexistantes telles que les étiquettes de classe. [Les erreurs standard groupées et / ou les échantillons de cluster doivent être étiquetés comme tels; N'utilisez PAS la balise "clustering" pour eux.]

3
Cyclisme dans l'algorithme k-means
Selon wiki, le critère de convergence le plus utilisé est "l'assignation n'a pas changé". Je me demandais si le cyclisme peut se produire si nous utilisons un tel critère de convergence? Je serais heureux si quelqu'un faisait référence à un article qui donne un exemple de cyclisme ou prouve que …

4
Comment effectuer plusieurs tests chi carré post-hoc sur une table 2 X 3?
Mon ensemble de données comprend la mortalité totale ou la survie d'un organisme sur trois types de sites: côtier, médian et extracôtier. Les nombres dans le tableau ci-dessous représentent le nombre de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Je voudrais savoir si …

2
Premiers pas avec le biclustering
J'ai fait des recherches occasionnelles sur Internet sur les biclusters. (J'ai lu l'article Wiki plusieurs fois.) Jusqu'à présent, il semble qu'il y ait peu de définitions ou de terminologie standard. Je me demandais s'il y avait des articles ou des livres standard que toute personne intéressée par les algorithmes pour …

2
Calculer la courbe ROC pour les données
Donc, j'ai 16 essais dans lesquels j'essaie d'authentifier une personne à partir d'un trait biométrique en utilisant Hamming Distance. Mon seuil est fixé à 3,5. Mes données sont ci-dessous et seul l'essai 1 est un vrai positif: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

3
La meilleure façon de regrouper une matrice d'adjacence
J'ai eu du mal à interpréter les grappes résultantes d'une matrice d'adjacence. J'ai 200 matrices relativement grandes représentant des sujets qui contiennent des corrélations partielles (scores z) de séries chronologiques (données neuronales). L'objectif est de regrouper ces 210 matrices et de détecter toute communauté potentielle non découverte. J'ai donc fait …


1
Critères du coude pour déterminer le nombre de grappes
Il est mentionné ici qu'une des méthodes pour déterminer le nombre optimal de grappes dans un ensemble de données est la "méthode du coude". Ici, le pourcentage de variance est calculé comme le rapport de la variance entre les groupes à la variance totale. J'avais du mal à comprendre ce …

3
Comment effectuer une SVD pour imputer des valeurs manquantes, un exemple concret
J'ai lu les excellents commentaires sur la façon de traiter les valeurs manquantes avant d'appliquer SVD, mais j'aimerais savoir comment cela fonctionne avec un exemple simple: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Étant donné la matrice …
8 r  missing-data  data-imputation  svd  sampling  matlab  mcmc  importance-sampling  predictive-models  prediction  algorithms  graphical-model  graph-theory  r  regression  regression-coefficients  r-squared  r  regression  modeling  confounding  residuals  fitting  glmm  zero-inflation  overdispersion  optimization  curve-fitting  regression  time-series  order-statistics  bayesian  prior  uninformative-prior  probability  discrete-data  kolmogorov-smirnov  r  data-visualization  histogram  dimensionality-reduction  classification  clustering  accuracy  semi-supervised  labeling  state-space-models  t-test  biostatistics  paired-comparisons  paired-data  bioinformatics  regression  logistic  multiple-regression  mixed-model  random-effects-model  neural-networks  error-propagation  numerical-integration  time-series  missing-data  data-imputation  probability  self-study  combinatorics  survival  cox-model  statistical-significance  wilcoxon-mann-whitney  hypothesis-testing  distributions  normal-distribution  variance  t-distribution  probability  simulation  random-walk  diffusion  hypothesis-testing  z-test  hypothesis-testing  data-transformation  lognormal  r  regression  agreement-statistics  classification  svm  mixed-model  non-independent  observational-study  goodness-of-fit  residuals  confirmatory-factor  neural-networks  deep-learning 




3
Utilisation de k-means avec d'autres mesures
Je me rends donc compte que cela a déjà été demandé: par exemple, quels sont les cas d'utilisation liés à l'analyse de cluster de différentes métriques de distance? mais j'ai trouvé les réponses quelque peu contradictoires avec ce qui est suggéré devrait être possible dans la littérature. Récemment, j'ai lu …


4
Clusters pouvant être causés par K-means
J'ai obtenu la question suivante comme question test pour mon examen et je ne comprends tout simplement pas la réponse. Un diagramme de dispersion des données projetées sur les deux premières composantes principales est présenté ci-dessous. Nous souhaitons examiner s'il existe une structure de groupe dans l'ensemble de données. Pour …

2
Regroupement de données comportant un mélange de variables continues et catégorielles
J'ai des données qui représentent un aspect du comportement humain. Je veux le regrouper (sans surveillance) en profils comportementaux d'une certaine sorte. maintenant, certaines de mes variables sont catégoriques (avec 2 catégories ou plus), et certaines sont continues (la plupart sont des pourcentages). Quelques variables sont encore plus complexes dans …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.