Questions marquées «clustering»

L'analyse de cluster consiste à partitionner les données en sous-ensembles d'objets en fonction de leur «similitude» mutuelle, sans utiliser de connaissances préexistantes telles que les étiquettes de classe. [Les erreurs standard groupées et / ou les échantillons de cluster doivent être étiquetés comme tels; N'utilisez PAS la balise "clustering" pour eux.]

2
Regroupement de données de dénombrement très biaisées: des suggestions à faire (transformer, etc.)?
Problème de base Voici mon problème de base: j'essaie de regrouper un ensemble de données contenant des variables très asymétriques avec des nombres. Les variables contiennent de nombreux zéros et ne sont donc pas très informatives pour ma procédure de clustering - qui est probablement l'algorithme k-means. Très bien, dites-vous, …



3
Méthodes d'initialisation du clustering K-means
Je m'intéresse à l'état actuel de la technique pour sélectionner les semences initiales (centres de grappe) pour K-means. La recherche sur Google mène à deux choix populaires: sélection aléatoire des graines initiales, et, en utilisant la technique de sélection KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: Les avantages d'un …

3
Quelles sont les méthodes statistiques que je peux utiliser pour trouver des combinaisons populaires ou courantes de variables catégorielles?
Je fais une étude sur la polytoxicomanie. J'ai un ensemble de données de 400 toxicomanes, qui ont chacun déclaré les drogues qu'ils abusent. Il existe plus de 10 médicaments et donc de grandes combinaisons possibles. J'ai recodé la plupart des drogues qu'ils consomment en variables binaires (c'est-à-dire que l'héroïne est …

1
Comprendre l'utilisation des logarithmes dans le logarithme TF-IDF
Je lisais: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Mais je n'arrive pas à comprendre exactement pourquoi la formule a été construite telle qu'elle est. Ce que je comprends: iDF devrait à un certain niveau mesurer la fréquence à laquelle un terme S apparaît dans chacun des documents, sa valeur diminuant à mesure que le terme …


1
Comment dois-je interpréter les statistiques GAP?
J'ai utilisé la statistique GAP pour estimer k grappes dans R. Cependant, je ne suis pas sûr de bien l'interpréter. D'après l'intrigue ci-dessus, je suppose que je devrais utiliser 3 clusters. Dans la deuxième parcelle, je devrais choisir 6 grappes. Est-ce une interprétation correcte des statistiques GAP? Je serais reconnaissant …
10 clustering 


2
PyMC pour le regroupement non paramétrique: le processus de Dirichlet pour estimer les paramètres du mélange gaussien ne parvient pas à se regrouper
Configuration du problème L'un des premiers problèmes de jouets auquel j'ai voulu appliquer PyMC est le clustering non paramétrique: étant donné certaines données, modélisez-le comme un mélange gaussien et apprenez le nombre de clusters et la moyenne et la covariance de chaque cluster. La plupart de ce que je sais …

3
Comment obtenir l'intervalle de confiance sur le changement du carré de la population
Pour un exemple simple, supposons qu'il existe deux modèles de régression linéaire Modèle 1 a trois prédicteurs, x1a, x2betx2c Le modèle 2 a trois prédicteurs du modèle 1 et deux prédicteurs supplémentaires x2aetx2b Il existe une équation de régression de la population où la variance de la population expliquée est …



1
Pourquoi Anova () et drop1 () ont-ils fourni des réponses différentes pour les GLMM?
J'ai un GLMM du formulaire: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Lorsque j'utilise drop1(model, test="Chi"), j'obtiens des résultats différents de ceux que j'utilise à Anova(model, type="III")partir du package de voiture ou summary(model). Ces deux derniers donnent les mêmes réponses. En utilisant un …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.