k-means est une méthode pour partitionner les données en grappes en trouvant un nombre spécifié de moyennes, k, st lorsque les données sont affectées aux grappes avec la moyenne la plus proche, la somme des carrés du grappe w / i est minimisée
Je sais qu'il y a un algorithme de clustering k-means et une k-médiane. L'un qui utilise la moyenne comme centre de la grappe et l'autre utilise la médiane. Ma question est: quand / où utiliser quoi?
Je sais que k-means est généralement optimisé à l'aide de la maximisation des attentes . Cependant, nous pourrions optimiser sa fonction de perte de la même manière que nous optimisons les autres! J'ai trouvé des articles qui utilisent réellement la descente de gradient stochastique pour les moyennes k à grande …
J'ai fait des recherches sur k-means et voici ce que j'ai obtenu: k-means est l'un des algorithmes les plus simples qui utilise une méthode d'apprentissage non supervisée pour résoudre les problèmes de clustering connus. Cela fonctionne très bien avec de grands ensembles de données. Cependant, il existe également des inconvénients …
Il semble que pour les moyennes K et d'autres algorithmes associés, le regroupement est basé sur le calcul de la distance entre les points. Y en a-t-il un qui fonctionne sans lui?
La notification après le tableau ANOVA après l'analyse des moyennes K indique que les niveaux de signification ne doivent pas être considérés comme le test de moyennes égales, car la solution de cluster a été dérivée sur la base de la distance euclidienne pour maximiser la distance. Quel test dois-je …
J'ai deux parties d'un ensemble de données multidimensionnelles, appelons-les trainet test. Et je veux construire un modèle basé sur l'ensemble de données du train, puis le valider sur l'ensemble de données de test. Le nombre de clusters est connu. J'ai essayé d'appliquer le clustering k-means dans R et j'ai obtenu …
Quelqu'un peut-il me signaler une implémentation de k-means (ce serait mieux si dans matlab) qui peut prendre la matrice de distance en entrée? L'implémentation matlab standard nécessite la matrice d'observation en entrée et il n'est pas possible de modifier la mesure de similitude de façon personnalisée.
J'utilise means clustering pour regrouper les voix des locuteurs. Lorsque je compare un énoncé avec des données de haut-parleur groupées, j'obtiens une distorsion moyenne (basée sur la distance euclidienne). Cette distance peut être comprise entre . Je veux convertir cette distance en un score de similitude . Veuillez me guider …
Si j'ai un certain ensemble de données, comment serait-il intelligent d'initialiser des centres de cluster à l'aide d'échantillons aléatoires de cet ensemble de données? Par exemple, supposons que je veuille 5 clusters. Je prends la 5 random samplesparole size=20%de l'ensemble de données d'origine. Puis-je alors prendre la moyenne de chacun …
J'ai appris que lors du choix d'un certain nombre de clusters, vous devez rechercher un point de coude pour différentes valeurs de K. J'ai tracé les valeurs de withinss pour des valeurs de k de 1 à 10, mais je ne vois pas de claire coude. Que faites-vous dans un …
J'essaie actuellement de calculer le BIC pour mon jeu de données de jouets (ofc iris (:). Je veux reproduire les résultats comme indiqué ici (Fig. 5). Ce papier est également ma source pour les formules BIC. J'ai 2 problèmes avec ceci: Notation: njenin_i = nombre d'éléments dans le clusterjeii CjeCiC_i …
Je lance kmeans pour identifier les clusters de clients. J'ai environ 100 variables pour identifier les grappes. Chacune de ces variables représente le% des dépenses d'un client sur une catégorie. Donc, si j'ai 100 catégories, j'ai ces 100 variables telles que la somme de ces variables est de 100% pour …
J'ai quelques points de données, contenant chacun 5 vecteurs de résultats discrets agglomérés, les résultats de chaque vecteur générés par une distribution différente, (le type spécifique dont je ne suis pas sûr, ma meilleure supposition est Weibull, avec un paramètre de forme variant quelque part autour de l'exponentielle de puissance …
Bahman Bahmani et al. a introduit k-means ||, qui est une version plus rapide de k-means ++. Cet algorithme est tiré de la page 4 de leur article , Bahmani, B., Moseley, B., Vattani, A., Kumar, R., et Vassilvitskii, S. (2012). K-means évolutif ++. Actes de la dotation VLDB , …
J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.