GMM utilise des collines qui se chevauchent et s'étendent à l'infini (mais ne comptent pratiquement que pour 3 sigma). Chaque point obtient tous les scores de probabilité des collines. De plus, les collines sont "en forme d'oeuf" [d'accord, ce sont des ellipses symétriques ] et, en utilisant la matrice de covariance complète, peuvent être inclinées .
K-signifie assigner un point à un seul cluster, de sorte que les scores des autres centres de cluster sont ignorés (sont implicitement remis à zéro / ne se soucient pas). Les collines sont des bulles de savon sphériques. Lorsque deux bulles de savon se touchent, la frontière entre elles devient un plan (hyper-) plat. Tout comme lorsque vous soufflez une mousse de nombreuses bulles de savon, les bulles à l'intérieur ne sont pas plates mais sont carrées, de sorte que les frontières entre de nombreuses (hyper-) sphères forment en fait une partition Voronoi de l'espace. En 2D, cela a tendance à ressembler vaguement à un emballage rapproché hexagonal, pensez à une ruche (bien sûr, les cellules de Voronoi ne sont pas garanties d'être des hexagones). Une colline K-signifie est ronde et ne s'incline pas, elle a donc moins de pouvoir de représentation; mais il est beaucoup plus rapide à calculer, surtout dans les dimensions supérieures.
Parce que K-means utilise la métrique de distance euclidienne, il suppose que les dimensions sont comparables et de poids égal. Donc, si la dimension X a des unités de miles par heure, variant de 0 à 80, et la dimension Y a des unités de livres, variant de 0 à 400, et que vous ajustez des cercles dans cet espace XY, alors une dimension (et sa propagation) va être plus puissant que l'autre dimension et éclipsera les résultats. C'est pourquoi il est habituel de normaliser les données lors de la prise de K-means.
GMM et K-means modélisent les données en ajustant les meilleures approximations à ce qui est donné. GMM s'adapte aux œufs inclinés et K-means s'adapte aux sphères jusqu'à ce qu'il soit. Mais les données sous-jacentes pourraient avoir la forme de n'importe quoi, ce pourrait être une spirale ou une peinture de Picasso, et chaque algorithme fonctionnerait toujours et prendrait son meilleur coup. Le fait que le modèle résultant ressemble ou non aux données réelles dépend du processus physique sous-jacent générant les données. (Par exemple, les mesures de retard sont unilatérales; un gaussien est-il un bon ajustement? Peut-être.)
Rn
Ainsi, votre image binaire 8x8 va être interprétée comme un hypercube à 64 dimensions dans le premier hyperquadrant. Les algorithmes utilisent ensuite des analogies géométriques pour trouver des clusters. La distance, avec K-moyennes, apparaît comme une distance euclidienne dans un espace à 64 dimensions. C'est une façon de le faire.