Questions marquées «clustering»

L'analyse de cluster consiste à partitionner les données en sous-ensembles d'objets en fonction de leur «similitude» mutuelle, sans utiliser de connaissances préexistantes telles que les étiquettes de classe. [Les erreurs standard groupées et / ou les échantillons de cluster doivent être étiquetés comme tels; N'utilisez PAS la balise "clustering" pour eux.]




2
Regroupement d'une donnée bruyante ou avec des valeurs aberrantes
J'ai des données bruyantes de deux variables comme celle-ci. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, …


3
Choisir des clusters pour k-means: le cas de 1 cluster
Quelqu'un connaît-il une bonne méthode pour déterminer si le regroupement à l'aide de kmeans est même approprié? Autrement dit, que se passe-t-il si votre échantillon est réellement homogène? Je sais que quelque chose comme un modèle de mélange (via mclust dans R) fournira des statistiques d'ajustement pour le cas de …
9 r  clustering  k-means 


1
Comment comparer les événements observés aux événements attendus?
Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

7
Recherche de données artificielles 2D pour démontrer les propriétés des algorithmes de clustering
Je recherche des ensembles de données de points de données bidimensionnels (chaque point de données est un vecteur de deux valeurs (x, y)) suivant différentes distributions et formes. Un code pour générer de telles données serait également utile. Je veux les utiliser pour tracer / visualiser le fonctionnement de certains …



2
Une distance doit-elle être une «métrique» pour qu'un clustering hiérarchique soit valide sur celle-ci?
Disons que nous définissons une distance, qui n'est pas une métrique , entre N éléments. Sur la base de cette distance, nous utilisons ensuite un regroupement hiérarchique agglomératif . Pouvons-nous utiliser chacun des algorithmes connus (liaison simple / maximale / moyenne, etc.) pour obtenir des résultats significatifs? Ou autrement dit, …

4
Regroupement avec des mesures de distance asymétriques
Comment regrouper une entité avec une mesure de distance asymétrique? Par exemple, supposons que vous regroupiez un ensemble de données avec des jours de la semaine comme entité - la distance du lundi au vendredi n'est pas la même que la distance du vendredi au lundi. Comment intégrez-vous cela dans …


3
Cluster efficace dans l'espace
La plupart des algorithmes de clustering que j'ai vus commencent par créer des distances de chaque point entre tous les points, ce qui devient problématique sur des ensembles de données plus importants. Y en a-t-il un qui ne le fait pas? Ou le fait-il dans une sorte d'approche partielle / …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.