Dans quelles conditions K-means est-il invariant par transformation?

Étant donné un ensemble de points de données où nous exécutons K-means sur et obtenons les clusters . $X = \{x_1, x_2, \ldots, x_m\}$ $x_i \in \mathbb{R}^d$ $X$ $c_1, c_2, \ldots, c_k$

Maintenant, si nous créons un nouvel ensemble de données où et et exécutons K-means sur pour obtenir les clusters . $Y = \{y_1, y_2, \ldots, y_m\}$ $y_i = Ax_i + b$ $y_i \in \mathbb{R}^d$ $Y$ $g_1, g_2, \ldots g_k$

Dans quelles conditions et avons-nous la garantie d'obtenir les mêmes grappes? $A$ $b$

Supposons que K-means utilise la distance euclidienne et a les mêmes conditions initiales sur les deux algorithmes, c'est-à-dire que si les centres initiaux de X sont alors les centres initiaux de Y sont où . $c^0_1, \ldots, c^0_k$ $g^0_1, \ldots, g^0_k$ $g^0_i = Ac^0_i + b$

Jusqu'à présent, j'ai pensé que doit être de rang complet et peut être n'importe quel vecteur. Cependant, je n'ai pas pu le prouver. $A$ $b$

algorithms clustering

— Ana Echavarria
source

La réponse dépend de votre algorithme K-means, mais ce qui suit devrait fonctionner pour les algorithmes standard.

Vous obtiendrez le même résultat si votre transformation remplit deux conditions: $T$

Il conserve les distances: , où est votre métrique, disons. $d(z,w) = d(T(z),T(w))$ $d$ $d(z,w) = \|z-w\|$
Il conserve des moyennes: si est une combinaison convexe que . $\sum_i p_i z_i$ $T(\sum_i p_i z_i) = \sum_i p_i T(z_i)$

Vous pouvez le vérifier en parcourant l'algorithme, montrant qu'il fait toujours les mêmes choix.

— Yuval Filmus
source

Merci Yuval, cela a beaucoup de sens. Cela signifierait-il alors que pour la distance euclidienne, A devrait être une matrice orthogonale pour créer une transformation rigide?

— Ana Echavarria

Il semble que oui.

— Yuval Filmus