Statistiques et Big Data clustering

1

Clarification de la maximisation des attentes

J'ai trouvé un tutoriel très utile concernant l' algorithme EM . L'exemple et l'image du tutoriel sont tout simplement géniaux. Question connexe sur le calcul des probabilités comment fonctionne la maximisation des attentes? J'ai une autre question concernant la façon de connecter la théorie décrite dans le tutoriel à l'exemple. …

11 machine-learning clustering algorithms natural-language

3

La modularité du réseau de Newman fonctionne-t-elle pour les graphiques signés et pondérés?

La modularité d'un graphe est définie sur sa page Wikipédia . Dans un autre article , quelqu'un a expliqué que la modularité peut facilement être calculée (et maximisée) pour les réseaux pondérés car la matrice d'adjacence peut également contenir des liens de valeur. Cependant, je voudrais savoir si cela fonctionnerait …

11 clustering data-visualization networks partitioning modularity

1

Quelle est l'intuition derrière la métrique de variation de l'information (VI) pour la validation de cluster?

Pour les non-statisticiens comme moi, il est très difficile de saisir l'idée de VImétrique (variation des informations) même après avoir lu l'article pertinent de Marina Melia " Comparing clusterings - An information based distance " (Journal of Multivariate Analysis, 2007). En fait, je ne connais pas la plupart des termes …

11 r clustering validation intuition

2

Quelles sont les distances entre les variables constituant une matrice de covariance?

J'ai une matrice de covariance et je souhaite partitionner les variables en clusters en utilisant un clustering hiérarchique (par exemple, pour trier une matrice de covariance).n×nn×nn \times nkkk Existe-t-il une fonction de distance typique entre les variables (c'est-à-dire entre les colonnes / lignes de la matrice de covariance carrée)? Ou …

11 clustering covariance distance-functions distance

2

Comment trouver des regroupements (trajectoires) parmi les données longitudinales?

Le contexte Je veux planter le décor avant d'étendre quelque peu la question. J'ai des données longitudinales, des mesures sont prises sur des sujets environ tous les 3 mois, le résultat principal est numérique (comme en continu à 1dp) dans la plage de 5 à 14, la masse (de tous …

11 clustering panel-data

4

Y a-t-il des cas où il n'y a pas de k optimal dans k-moyennes?

Cela me vient à l'esprit depuis au moins quelques heures. J'essayais de trouver un k optimal pour la sortie de l'algorithme k-means (avec une métrique de similitude cosinus ), donc j'ai fini par tracer la distorsion en fonction du nombre de grappes. Mon ensemble de données est une collection de …

11 machine-learning clustering k-means

5

Regroupement SOM pour les variables nominales / circulaires

Je me demande simplement si quelqu'un est familier avec le regroupement des entrées nominales. J'ai regardé SOM comme une solution mais apparemment, cela ne fonctionne qu'avec des fonctionnalités numériques. Existe-t-il des extensions pour les fonctionnalités catégorielles? Plus précisément, je me posais des questions sur les «jours de la semaine» comme …

11 clustering unsupervised-learning self-organizing-maps

2

Visualisation de données multidimensionnelles (LSI) en 2D

J'utilise l'indexation sémantique latente pour trouver des similitudes entre les documents ( merci JMS! ) Après la réduction des dimensions, j'ai essayé le clustering k-means pour regrouper les documents en clusters, ce qui fonctionne très bien. Mais j'aimerais aller un peu plus loin et visualiser les documents comme un ensemble …

11 data-visualization clustering python multidimensional-scaling

1

R / mgcv: Pourquoi les produits tenseurs te () et ti () produisent-ils des surfaces différentes?

Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne comprends pas, c'est pourquoi te(x1, …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

Quel algorithme dois-je utiliser pour regrouper un énorme ensemble de données binaires en quelques catégories?

J'ai une grande matrice (650K lignes * 62 colonnes) de données binaires (0-1 entrées uniquement). La matrice est généralement clairsemée: environ 8% est remplie. Je voudrais le regrouper en 5 groupes - disons nommés de 1 à 5. J'ai essayé le regroupement hiérarchique et il n'a pas pu gérer la …

11 clustering dataset k-means binary-data

1

Attribuer des poids aux variables dans l'analyse de cluster

Je veux attribuer des poids différents aux variables dans mon analyse de cluster, mais mon programme (Stata) ne semble pas avoir d'option pour cela, donc je dois le faire manuellement. Imaginez 4 variables A, B, C, D. Les poids de ces variables devraient être w(A)=50% w(B)=25% w(C)=10% w(D)=15% Je me …

11 clustering stata

3

Distance entre deux mélanges gaussiens pour évaluer les solutions de cluster

J'exécute une simulation rapide pour comparer différentes méthodes de clustering et je suis actuellement confronté à un problème en essayant d'évaluer les solutions de cluster. Je connais différentes métriques de validation (beaucoup se trouvent dans cluster.stats () dans R), mais je suppose que celles-ci sont mieux utilisées si le nombre …

11 clustering kullback-leibler gaussian-mixture

2

Comment regrouper «intelligemment» une collection de données triées?

J'essaie de classer intelligemment une collection triée. J'ai une collection de éléments de données. Mais je sais que ces données s'inscrivent dans bacs de taille inégale. Je ne sais pas comment choisir intelligemment les points de terminaison pour ajuster correctement les données. par exemple:mnnnmmm Supposons que j'ai 12 articles dans …

11 clustering histogram binning

5

Le clustering comme moyen de fractionner les données pour la régression logistique

J'essaie de prédire le succès ou l'échec des étudiants en fonction de certaines fonctionnalités avec un modèle de régression logistique. Pour améliorer les performances du modèle, j'ai déjà pensé à diviser les élèves en différents groupes en fonction de différences évidentes et à construire des modèles distincts pour chaque groupe. …

11 clustering data-mining logistic

4

Comment testez-vous une implémentation de k-means?

Avertissement: j'ai posté cette question sur Stackoverflow, mais je pensais que c'était peut-être mieux adapté à cette plate-forme. Comment testez-vous votre propre implémentation de k-means pour des ensembles de données multidimensionnels? Je pensais exécuter une implémentation déjà existante (c'est-à-dire Matlab) sur les données et comparer les résultats avec mon algorithme. …

11 clustering algorithms

Questions marquées «clustering»