Statistiques et Big Data clustering

5

Mise en cluster d'un jeu de données avec des variables à la fois discrètes et continues

J'ai un jeu de données X qui a 10 dimensions, dont 4 sont des valeurs discrètes. En fait, ces 4 variables discrètes sont ordinales, c'est-à-dire qu'une valeur plus élevée implique une sémantique plus élevée / meilleure. 2 de ces variables discrètes sont catégoriques en ce sens que pour chacune de …

33 clustering k-means discrete-data continuous-data gaussian-mixture

2

Choisir la bonne méthode de liaison pour le clustering hiérarchique

Je joue la classification hiérarchique des données que j'ai recueillies et traitées de la décharge de données reddit sur Google BigQuery. Mon processus est le suivant: Recevez les 1000 derniers articles dans / r / politique Rassemblez tous les commentaires Traiter les données et calculer une n x mmatrice de …

33 clustering distance unsupervised-learning hierarchical-clustering

1

Comment PCA pourrait-il aider avec une analyse de classification k-means?

Contexte : Je souhaite classer les zones résidentielles d'une ville en groupes en fonction de leurs caractéristiques socio-économiques, y compris la densité d'unités de logement, la densité de population, les espaces verts, le prix du logement, le nombre d'écoles / centres de santé / garderies, etc. Je veux comprendre combien …

32 clustering pca k-means dimensionality-reduction

3

Quels critères d'arrêt pour le clustering hiérarchique aggloméré sont utilisés dans la pratique?

J'ai trouvé une littérature abondante proposant toutes sortes de critères (par exemple Glenn et al. 1985 (pdf) et Jung et al. 2002 (pdf)). Cependant, la plupart d'entre eux ne sont pas si faciles à mettre en œuvre (du moins de mon point de vue). J'utilise scipy.cluster.hierarchy pour obtenir une hiérarchie …

32 clustering

3

Regroupement d'une longue liste de chaînes (mots) en groupes de similarité

J'ai le problème suivant à portée de main: j'ai une très longue liste de mots, éventuellement des noms, des noms de famille, etc. J'ai besoin de regrouper cette liste de mots, de sorte que des mots similaires, par exemple des mots avec une distance d'édition similaire (Levenshtein) apparaissent dans même …

31 clustering k-means pattern-recognition

3

Analyse de classe latente vs analyse de cluster - différences dans les inférences?

Quelles sont les différences dans les inférences qui peuvent être faites à partir d'une analyse de classe latente (ACV) par rapport à une analyse en grappes? Est-il exact qu'une ACV suppose une variable latente sous-jacente qui donne naissance aux classes, alors que l'analyse de cluster est une description empirique des …

30 clustering latent-variable latent-class

5

Comment gérer les données hiérarchiques / imbriquées dans l'apprentissage automatique

Je vais expliquer mon problème avec un exemple. Supposons que vous souhaitiez prédire le revenu d'un individu en fonction de certains attributs: {âge, sexe, pays, région, ville}. Vous avez un ensemble de données de formation comme ça train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Comparaison des dendrogrammes de regroupement hiérarchique obtenus par différentes distances et méthodes

[Le titre initial "Mesure de la similitude pour les arbres de clustering hiérarchiques" a été modifié par la suite par @ttnphns pour mieux refléter le sujet] J'effectue un certain nombre d' analyses de grappes hiérarchiques sur une trame de données des dossiers des patients (par exemple similaire à http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) …

28 r clustering distance-functions similarities dendrogram

1

Calcul de la répétabilité des effets d'un modèle lmer

Je viens de tomber sur cet article , qui décrit comment calculer la répétabilité (aka fiabilité, aka corrélation intraclasse) d'une mesure via la modélisation d'effets mixtes. Le code R serait: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Différence entre les algorithmes k-moyennes standard et sphériques

Je voudrais comprendre quelle est la principale différence de mise en œuvre entre les algorithmes de clustering k-means standard et sphérique. À chaque étape, k-means calcule les distances entre les vecteurs d'éléments et les centroïdes de cluster, et réaffecte le document à ce cluster, dont le centroïde est le plus …

28 clustering data-mining algorithms k-means

4

Comment réduire la dimensionnalité dans R

J'ai une matrice où a (i, j) me dit combien de fois j'ai consulté individuellement la page j. Il y a 27 000 personnes et 95 000 pages. J'aimerais avoir une poignée de "dimensions" ou "aspects" dans l'espace des pages qui correspondraient à des ensembles de pages qui sont souvent …

28 r clustering dimensionality-reduction

2

Comment utiliser les variables binaires et continues ensemble dans le clustering?

J'ai besoin d'utiliser des variables binaires (valeurs 0 et 1) dans k-means. Mais k-means ne fonctionne qu'avec des variables continues. Je sais que certaines personnes utilisent encore ces variables binaires dans k-means en ignorant le fait que k-means n'est conçu que pour des variables continues. C'est inacceptable pour moi. Des …

27 r clustering binary-data k-means mixed-type-data

3

En quoi trouver le centroïde est-il différent de trouver la moyenne?

Lors de la mise en cluster hiérarchique, on peut utiliser de nombreuses métriques pour mesurer la distance entre les clusters. Deux de ces mesures impliquent le calcul des centroïdes et des moyennes des points de données dans les grappes. Quelle est la différence entre la moyenne et le centroïde? N'est-ce …

26 clustering mean

3

LSA contre PCA (regroupement de documents)

J'étudie différentes techniques utilisées dans le clustering de documents et je voudrais dissiper certains doutes concernant PCA (analyse en composantes principales) et LSA (analyse sémantique latente). Première chose - quelles sont les différences entre eux? Je sais qu'en PCA, la décomposition SVD est appliquée à la matrice terme-covariance, tandis qu'en …

25 clustering pca data-mining svd lsa

1

Quelle est la valeur acceptable du critère Calinski & Harabasz (CH)?

J'ai fait une analyse de données en essayant de regrouper les données longitudinales en utilisant R et le package kml . Mes données contiennent environ 400 trajectoires individuelles (comme on l'appelle dans l'article). Vous pouvez voir mes résultats dans l'image suivante: Après avoir lu le chapitre 2.2 "Choisir un nombre …

25 r clustering panel-data

Questions marquées «clustering»