k-means est une méthode pour partitionner les données en grappes en trouvant un nombre spécifié de moyennes, k, st lorsque les données sont affectées aux grappes avec la moyenne la plus proche, la somme des carrés du grappe w / i est minimisée
Autant que je sache, k-means sélectionne les centres initiaux de manière aléatoire. Puisqu'ils sont basés sur la pure chance, ils peuvent être très mal sélectionnés. L'algorithme K-means ++ tente de résoudre ce problème en répartissant uniformément les centres initiaux. Les deux algorithmes garantissent-ils les mêmes résultats? Ou il est possible …
Je prends une donnée factice de la température par rapport aux ventes de crème glacée et la classe en utilisant K Means (n grappes = 2) pour distinguer 2 catégories (totalement factice). Maintenant, je fais une analyse en composantes principales sur ces données et mon objectif est de comprendre ce …
Je voudrais coder un cluster kmeans en python à l'aide de pandas et de scikit learn. Afin de sélectionner le bon k, je voudrais coder la statistique de l'écart de Tibshirani et al 2001 ( pdf ). Je voudrais savoir si je pourrais utiliser le résultat inertie_ de scikit et …
Je travaille sur un logiciel qui devrait déterminer les emplacements du monde réel (par exemple, les radars) à partir de plusieurs rapports basés sur le GPS . Un utilisateur conduira lorsqu'il signalera un emplacement, ce qui rend les rapports très inexacts. Pour résoudre ce problème, je dois regrouper les rapports …
Quelqu'un connaît-il une bonne méthode pour déterminer si le regroupement à l'aide de kmeans est même approprié? Autrement dit, que se passe-t-il si votre échantillon est réellement homogène? Je sais que quelque chose comme un modèle de mélange (via mclust dans R) fournira des statistiques d'ajustement pour le cas de …
Supposons que j'ai un échantillon de fréquences de 4 événements possibles: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 et j'ai les probabilités attendues que mes événements se produisent: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Avec la somme des fréquences …
Selon wiki, le critère de convergence le plus utilisé est "l'assignation n'a pas changé". Je me demandais si le cyclisme peut se produire si nous utilisons un tel critère de convergence? Je serais heureux si quelqu'un faisait référence à un article qui donne un exemple de cyclisme ou prouve que …
Je me demande s'il existe un bon moyen de calculer le critère de clustering basé sur la formule BIC, pour une sortie k-means dans R? Je suis un peu confus quant à la façon de calculer ce BIC afin de pouvoir le comparer avec d'autres modèles de clustering. Actuellement, j'utilise …
Il est mentionné ici qu'une des méthodes pour déterminer le nombre optimal de grappes dans un ensemble de données est la "méthode du coude". Ici, le pourcentage de variance est calculé comme le rapport de la variance entre les groupes à la variance totale. J'avais du mal à comprendre ce …
Je suis assez nouveau dans la reconnaissance des chiffres et j'ai remarqué que de nombreux tutoriels utilisent la classification SVM, par exemple: http://hanzratech.in/2015/02/24/handwritten-digit-recognition-using-opencv-sklearn-and-python.html http://scikit-learn.org/stable/auto_examples/classification/plot_digits_classification.html Je voudrais savoir s'il y a des avantages (spécifiques au domaine) pour cet outil, par exemple Réseaux de neurones d'apprentissage profond Classification basée sur k-moyennes Merci …
Mon objectif est de voir que l'algorithme K-means est en fait un algorithme d'expectation-maximisation pour les mélanges gaussiens dans lequel toutes les composantes ont une covariance dans la limite comme .σ2Iσ2I\sigma^2 Ilimσ→0limσ→0\lim_{\sigma \to 0} Supposons que nous ayons un ensemble de données {x1,…,xN}{x1,…,xN}\{x_1, \dots ,x_N\} des observations de variable aléatoire …
Je me rends donc compte que cela a déjà été demandé: par exemple, quels sont les cas d'utilisation liés à l'analyse de cluster de différentes métriques de distance? mais j'ai trouvé les réponses quelque peu contradictoires avec ce qui est suggéré devrait être possible dans la littérature. Récemment, j'ai lu …
J'ai obtenu la question suivante comme question test pour mon examen et je ne comprends tout simplement pas la réponse. Un diagramme de dispersion des données projetées sur les deux premières composantes principales est présenté ci-dessous. Nous souhaitons examiner s'il existe une structure de groupe dans l'ensemble de données. Pour …
Dans les méthodes de clustering telles que K-means , la distance euclidienne est la métrique à utiliser. Par conséquent, nous calculons uniquement les valeurs moyennes au sein de chaque cluster. Et puis des ajustements sont effectués sur les éléments en fonction de leur distance à chaque valeur moyenne. Je me …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.