Voici un exemple, si je le faisais avec mplus, ce qui pourrait être utile et compléter des réponses plus complètes:
Disons que j'ai 3 variables continues et que je veux identifier les grappes basées sur celles-ci. Je spécifierais un modèle de mélange (plus spécifiquement dans ce cas, un modèle de profil latent), en supposant une indépendance conditionnelle (les variables observées sont indépendantes, compte tenu de l'appartenance à un cluster) comme:
Model:
%Overall%
v1* v2* v3*; ! Freely estimated variances
[v1 v2 v3]; ! Freely estimated means
J'exécutais ce modèle plusieurs fois, en spécifiant à chaque fois un nombre différent de clusters et en choisissant la solution qui me plaisait le plus (pour cela, il s'agit d'un vaste sujet en soi).
Pour ensuite exécuter k-means, je spécifierais le modèle suivant:
Model:
%Overall%
v1@0 v2@0 v3@0; ! Variances constrained as zero
[v1 v2 v3]; ! Freely estimated means
Ainsi, l'appartenance à une classe est uniquement basée sur la distance à la moyenne des variables observées. Comme indiqué dans d'autres réponses, les écarts n'ont rien à voir avec cela.
La bonne chose à faire avec mplus est que ce sont des modèles imbriqués, ce qui vous permet de vérifier directement si les contraintes entraînent un ajustement plus difficile ou non, en plus de pouvoir comparer la discordance de classification entre les deux méthodes. Soit dit en passant, ces deux modèles peuvent être estimés à l'aide d'un algorithme EM. La différence réside donc davantage dans le modèle.
Si vous pensez en 3D, les 3 moyens font un point ... et les variances les trois axes d'un ellipsoïde passant par ce point. Si les trois variations sont identiques, vous obtiendrez une sphère.