Questions marquées «k-means»

k-means est une méthode pour partitionner les données en grappes en trouvant un nombre spécifié de moyennes, k, st lorsque les données sont affectées aux grappes avec la moyenne la plus proche, la somme des carrés du grappe w / i est minimisée



6
Comment savoir si les données sont suffisamment «regroupées» pour que les algorithmes de regroupement produisent des résultats significatifs?
Comment sauriez-vous si vos données (de haute dimension) présentent suffisamment de clustering pour que les résultats de kmeans ou d'un autre algorithme de clustering soient réellement significatifs? Pour l'algorithme k-means en particulier, quelle réduction de la variance au sein d'une grappe devrait-il y avoir pour que les résultats de la …

6
Clustering sur la sortie de t-SNE
J'ai une application où il serait pratique de regrouper un ensemble de données bruyant avant de rechercher des effets de sous-groupe dans les clusters. J'ai d'abord examiné PCA, mais il faut environ 30 composants pour obtenir 90% de la variabilité. Par conséquent, le regroupement sur seulement quelques PC va jeter …

3
Comment produire un joli graphique des résultats de l'analyse par grappes k-means?
J'utilise R pour faire du clustering K-means. J'utilise 14 variables pour exécuter K-means Quelle est une jolie façon de tracer les résultats de K-means? Y a-t-il des implémentations existantes? Avoir 14 variables complique-t-il la représentation graphique des résultats? J'ai trouvé quelque chose appelé GGcluster qui a l'air cool mais qui …

6
Pourquoi l'algorithme de clustering k-means utilise-t-il uniquement la métrique de distance euclidienne?
Existe-t-il un objectif spécifique en termes d'efficacité ou de fonctionnalité pour lequel l'algorithme k-means n'utilise pas, par exemple, la similarité cosinus comme métrique de distance, mais ne peut utiliser que la norme euclidienne? En général, la méthode K-means sera-t-elle conforme et sera-t-elle correcte si d'autres distances que Euclidean sont considérées …

5
Quelle est la relation entre le clustering k-means et PCA?
Il est courant d'appliquer PCA (analyse en composantes principales) avant un algorithme de classification (tel que k-means). On pense que cela améliore les résultats de regroupement dans la pratique (réduction du bruit). Cependant, je suis intéressé par une étude comparative et approfondie de la relation entre PCA et k-means. Par …

10
Comment décider du nombre correct de clusters?
Nous trouvons les centres de cluster et attribuons des points à k différents groupes de cluster dans le clustering k-means, qui est un algorithme très bien connu et qui se retrouve presque dans tous les packages d'apprentissage automatique du réseau. Mais la partie manquante et la plus importante à mon …







5
Comment gérer les données hiérarchiques / imbriquées dans l'apprentissage automatique
Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.