Mon objectif est de voir que l'algorithme K-means est en fait un algorithme d'expectation-maximisation pour les mélanges gaussiens dans lequel toutes les composantes ont une covariance dans la limite comme .
Supposons que nous ayons un ensemble de données des observations de variable aléatoire .
La fonction objective pour les moyennes M est donnée par:
(si le point de données est affecté au cluster , alors et pour k).
L'algorithme K-means minimise par itération jusqu'à la convergence, ce qui implique deux étapes successives:
(E) minimiser par rapport à gardant tous les fixes
(M) minimiser par rapport à gardant tous les fixes
En général, désignant toutes les données observées par , toutes les variables latentes par et l'ensemble de tous les paramètres du modèle par , l'algorithme EM maximise la distribution postérieure par itération jusqu'à convergence, de deux étapes alternées:
(E ) calculer l'espérance
(M) find
Considérons maintenant la distribution du mélange gaussien: Présentation d'une variable aléatoire binaire latente de dimension par , on voit que: Donc
Si maintenant tous les Gaussiens dans le modèle de mélange ont une covariance , considérant la limite je peux facilement montrer que où est aussi défini ci-dessus. Ainsi, l'étape (E) met à jour comme dans l'algorithme K-means.
Cependant, j'ai du mal à maximiser dans ce contexte, comme pour .
Est-il vrai que jusqu'à une multiplication constante et scalaire:
?
Peut-être que je manque quelque chose. Aucun conseil?