Questions marquées «clustering»

L'analyse de cluster ou le clustering consiste à regrouper un ensemble d'objets de telle sorte que les objets du même groupe (appelé cluster) soient plus similaires (dans un sens ou dans un autre) les uns aux autres qu'à ceux des autres groupes (clusters) . Il s'agit d'une tâche principale d'exploration de données d'exploration et d'une technique commune d'analyse de données statistiques, utilisée dans de nombreux domaines, notamment l'apprentissage automatique, la reconnaissance de formes, l'analyse d'images, la recherche d'informations, etc.



4
Suggérer des ensembles de données de formation sur le classificateur de texte
Quels jeux de données disponibles gratuitement puis-je utiliser pour former un classificateur de texte? Nous essayons d'améliorer l'engagement de nos utilisateurs en lui recommandant le contenu le plus connexe, alors nous avons pensé que si nous classions notre contenu en fonction d'un sac de mots prédéfini, nous pouvons lui recommander …




5
Regroupement avec similitude cosinus
J'ai un grand ensemble de données et une similitude cosinus entre eux. Je voudrais les regrouper en utilisant la similitude cosinus qui assemble des objets similaires sans avoir à spécifier au préalable le nombre de clusters que j'attends. J'ai lu la documentation sklearn de DBSCAN et Affinity Propagation, où les …

3
Comment évaluer le clustering de texte?
Quelles mesures peuvent être utilisées pour évaluer les modèles de clustering de texte? J'ai utilisé tf-idf+ k-means, tf-idf+ hierarchical clustering, doc2vec+ k-means (metric is cosine similarity), doc2vec+ hierarchical clustering (metric is cosine similarity). Comment décider quel modèle est le meilleur?


1
Quelle est la différence entre les vecteurs propres à matrice d'affinité et les vecteurs propres à graphes laplaciens dans le contexte du regroupement spectral?
Dans le clustering spectral, il est courant de résoudre le problème des vecteurs propres L v = λ vLv=λvL v = \lambda v où est le graphe laplacien, est le vecteur propre lié à la valeur propre .LLLvvvλλ\lambda Ma question: pourquoi s'embêter à prendre le graphe laplacien? Ne pourrais-je pas …

3
Algorithme de segmentation des données de séquence
J'ai une grande séquence de vecteurs de longueur N. J'ai besoin d'un algorithme d'apprentissage non supervisé pour diviser ces vecteurs en M segments. Par exemple: K-means ne convient pas, car il place des éléments similaires de différents emplacements dans un seul cluster. Mise à jour: Les vraies données ressemblent à …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.