Questions marquées «k-means»

k-means est une méthode pour partitionner les données en grappes en trouvant un nombre spécifié de moyennes, k, st lorsque les données sont affectées aux grappes avec la moyenne la plus proche, la somme des carrés du grappe w / i est minimisée

3
k-means vs k-means ++
Autant que je sache, k-means sélectionne les centres initiaux de manière aléatoire. Puisqu'ils sont basés sur la pure chance, ils peuvent être très mal sélectionnés. L'algorithme K-means ++ tente de résoudre ce problème en répartissant uniformément les centres initiaux. Les deux algorithmes garantissent-ils les mêmes résultats? Ou il est possible …
10 k-means 




3
Choisir des clusters pour k-means: le cas de 1 cluster
Quelqu'un connaît-il une bonne méthode pour déterminer si le regroupement à l'aide de kmeans est même approprié? Autrement dit, que se passe-t-il si votre échantillon est réellement homogène? Je sais que quelque chose comme un modèle de mélange (via mclust dans R) fournira des statistiques d'ajustement pour le cas de …
9 r  clustering  k-means 

1
Comment comparer les événements observés aux événements attendus?
Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

3
Cyclisme dans l'algorithme k-means
Selon wiki, le critère de convergence le plus utilisé est "l'assignation n'a pas changé". Je me demandais si le cyclisme peut se produire si nous utilisons un tel critère de convergence? Je serais heureux si quelqu'un faisait référence à un article qui donne un exemple de cyclisme ou prouve que …


1
Critères du coude pour déterminer le nombre de grappes
Il est mentionné ici qu'une des méthodes pour déterminer le nombre optimal de grappes dans un ensemble de données est la "méthode du coude". Ici, le pourcentage de variance est calculé comme le rapport de la variance entre les groupes à la variance totale. J'avais du mal à comprendre ce …

1
Avantages de SVM comme outil de reconnaissance des chiffres
Je suis assez nouveau dans la reconnaissance des chiffres et j'ai remarqué que de nombreux tutoriels utilisent la classification SVM, par exemple: http://hanzratech.in/2015/02/24/handwritten-digit-recognition-using-opencv-sklearn-and-python.html http://scikit-learn.org/stable/auto_examples/classification/plot_digits_classification.html Je voudrais savoir s'il y a des avantages (spécifiques au domaine) pour cet outil, par exemple Réseaux de neurones d'apprentissage profond Classification basée sur k-moyennes Merci …

1
K-means comme cas limite de l'algorithme EM pour les mélanges gaussiens avec covariances
Mon objectif est de voir que l'algorithme K-means est en fait un algorithme d'expectation-maximisation pour les mélanges gaussiens dans lequel toutes les composantes ont une covariance dans la limite comme .σ2Iσ2I\sigma^2 Ilimσ→0limσ→0\lim_{\sigma \to 0} Supposons que nous ayons un ensemble de données {x1,…,xN}{x1,…,xN}\{x_1, \dots ,x_N\} des observations de variable aléatoire …

3
Utilisation de k-means avec d'autres mesures
Je me rends donc compte que cela a déjà été demandé: par exemple, quels sont les cas d'utilisation liés à l'analyse de cluster de différentes métriques de distance? mais j'ai trouvé les réponses quelque peu contradictoires avec ce qui est suggéré devrait être possible dans la littérature. Récemment, j'ai lu …

4
Clusters pouvant être causés par K-means
J'ai obtenu la question suivante comme question test pour mon examen et je ne comprends tout simplement pas la réponse. Un diagramme de dispersion des données projetées sur les deux premières composantes principales est présenté ci-dessous. Nous souhaitons examiner s'il existe une structure de groupe dans l'ensemble de données. Pour …

2
Pourquoi seule la valeur moyenne est utilisée dans la méthode de regroupement (K-means)?
Dans les méthodes de clustering telles que K-means , la distance euclidienne est la métrique à utiliser. Par conséquent, nous calculons uniquement les valeurs moyennes au sein de chaque cluster. Et puis des ajustements sont effectués sur les éléments en fonction de leur distance à chaque valeur moyenne. Je me …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.