Questions marquées «clustering»

L'analyse de cluster consiste à partitionner les données en sous-ensembles d'objets en fonction de leur «similitude» mutuelle, sans utiliser de connaissances préexistantes telles que les étiquettes de classe. [Les erreurs standard groupées et / ou les échantillons de cluster doivent être étiquetés comme tels; N'utilisez PAS la balise "clustering" pour eux.]

3
Est-il acceptable d'utiliser la distance de Manhattan avec la liaison inter-cluster de Ward dans le clustering hiérarchique?
J'utilise le clustering hiérarchique pour analyser les données de séries chronologiques. Mon code est implémenté à l'aide de la fonction MathematicaDirectAgglomerate[...] , qui génère des clusters hiérarchiques compte tenu des entrées suivantes: une matrice de distance D le nom de la méthode utilisée pour déterminer la liaison inter-cluster. J'ai calculé …


1
Comment calculer la pureté?
Dans l'analyse en grappes, comment calculer la pureté? Quelle est l'équation? Je ne cherche pas de code pour le faire pour moi. Soit ωkωk\omega_k le cluster k et cjcjc_j la classe j. La pureté est-elle pratiquement exacte? il semble que l'on additionne la quantité de classes véritablement classées par cluster …
15 clustering 


1
Quelle méthode de comparaison multiple utiliser pour un modèle lmer: lsmeans ou glht?
J'analyse un ensemble de données à l'aide d'un modèle à effets mixtes avec un effet fixe (condition) et deux effets aléatoires (participant en raison de la conception et de la paire du sujet). Le modèle a été généré avec le lme4package: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Ensuite, j'ai effectué un test de rapport de …

2
Dirichlet Processus de clustering: comment gérer les étiquettes?
Q: Quelle est la méthode standard pour regrouper des données à l'aide d'un processus Dirichlet? Lors de l'utilisation de Gibbs, des grappes d'échantillonnage apparaissent et disparaissent pendant l'échantillonnage. Par ailleurs, nous avons un problème d'identifiabilité car la distribution postérieure est invariante aux ré-étiquetages de cluster. Ainsi, nous ne pouvons pas …

2
k-signifie vs k-médiane?
Je sais qu'il y a un algorithme de clustering k-means et une k-médiane. L'un qui utilise la moyenne comme centre de la grappe et l'autre utilise la médiane. Ma question est: quand / où utiliser quoi?



4
Comment mesurer la forme d'un cluster?
Je sais que cette question n'est pas bien définie, mais certains clusters ont tendance à être elliptiques ou se situent dans un espace dimensionnel inférieur tandis que les autres ont des formes non linéaires (dans les exemples 2D ou 3D). Existe-t-il une mesure de non-linéarité (ou "forme") des grappes? Notez …

3
Quelqu'un peut-il expliquer la déformation temporelle dynamique pour déterminer la similitude des séries chronologiques?
J'essaie de saisir la mesure de déformation temporelle dynamique pour comparer les séries temporelles ensemble. J'ai trois séries de données chronologiques comme celle-ci: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366, 0.000181950509461, 0.000385579332948, 0.00078170803205, 0.000747244535774, 0, 0.000622858922454, 0.000689084895259, 0.000487983408564, 0.000224744353298, 0.000416449765747, 0.000308388157895, 0.000198906016907, 0.000179549331179, 9.06289650172e-05, 0.000253506844685, 0.000582896161212, 0.000386473429952, …


3
ou
Quelqu'un utilise-t-il les métriques L1L1L_1 ou L.5L.5L_.5 pour le clustering, plutôt que L2L2L_2 ? Aggarwal et al., A propos du comportement surprenant des mesures de distance dans un espace de grande dimension, a déclaré (en 2001) que L1L1L_1 est toujours plus préférable que la métrique de distance euclidienne L2L2L_2 pour …

9
Logiciel de visualisation pour le clustering
Verrouillé . Cette question et ses réponses sont verrouillées car la question est hors sujet mais a une signification historique. Il n'accepte pas actuellement de nouvelles réponses ou interactions. Je veux regrouper ~ 22 000 points. De nombreux algorithmes de clustering fonctionnent mieux avec des suppositions initiales de meilleure qualité. …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.