k-means est une famille de méthodes d'analyse de cluster dans laquelle vous spécifiez le nombre de clusters que vous attendez. Cela s'oppose aux méthodes d'analyse de cluster hiérarchique.
Mon ensemble de données contient un certain nombre d'attributs numériques et un catégorique. Dis NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, où CategoricalAttrprend l' une des trois valeurs possibles: CategoricalAttrValue1, CategoricalAttrValue2ou CategoricalAttrValue3. J'utilise l'algorithme de clustering k-means par défaut pour Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Cela fonctionne uniquement avec des données numériques. Ma question …
Quelle est la bonne approche et le bon algorithme de clustering pour le clustering de géolocalisation? J'utilise le code suivant pour regrouper les coordonnées de géolocalisation: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, …
J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine d'essayer de faire …
J'essaie de regrouper certains vecteurs avec 90 fonctionnalités avec K-means. Étant donné que cet algorithme me demande le nombre de clusters, je veux valider mon choix avec de belles mathématiques. Je m'attends à avoir de 8 à 10 grappes. Les fonctionnalités sont à l'échelle Z-score. Explication de la méthode et …
Lorsqu'une initialisation aléatoire des centroïdes est utilisée, différentes séries de K-moyennes produisent différentes SSE totales. Et c'est crucial dans les performances de l'algorithme. Quelles sont les approches efficaces pour résoudre ce problème? Les approches récentes sont appréciées.
Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …
K-means est un algorithme bien connu pour le clustering, mais il existe également une variante en ligne de cet algorithme (K-means en ligne). Quels sont les avantages et les inconvénients de ces approches et quand devraient-elles être privilégiées?
Je cherche à regrouper k-means sur un ensemble de points à 10 dimensions. Le hic: il y a 10 ^ 10 points . Je recherche juste le centre et la taille des plus grands clusters (disons 10 à 100 clusters); Je me fiche du cluster dans lequel se trouve chaque …
Je prototype une application et j'ai besoin d'un modèle de langage pour calculer la perplexité sur certaines phrases générées. Existe-t-il un modèle de langage formé en python que je peux facilement utiliser? Quelque chose de simple comme model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = …
J'ai essayé de comprendre les différents algorithmes de clustering k-means principalement qui sont implémentés dans le statspackage du Rlangage. Je comprends l'algorithme de Lloyd et l'algorithme en ligne de MacQueen. La façon dont je les comprends est la suivante: Algorithme de Lloyd: Initialement, on choisit des observations aléatoires «k» qui …
Mes données incluent les réponses au sondage qui sont binaires (numériques) et nominales / catégoriques. Toutes les réponses sont discrètes et au niveau individuel. Les données sont de forme (n = 7219, p = 105). Quelques choses: J'essaie d'identifier une technique de clustering avec une mesure de similitude qui fonctionnerait …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.