Christopher Bishop définit la valeur attendue de la fonction de vraisemblance du journal des données complètes (c'est-à-dire en supposant que l'on nous donne à la fois les données observables X et les données latentes Z) comme suit:
où est défini comme:
L'idée, telle que décrite, est de considérer un modèle de mélange gaussien dans lequel les matrices de covariance des composants du mélange sont données par , où est un paramètre de variance qui est partagé par tous les composants, tels que cette:
et ainsi, est maintenant défini comme:
L' argument est maintenant le suivant:
si l'on considère la limite , on voit que dans le dénominateur le terme pour lequel est le plus petit, ira à zéro le plus lentement, et donc les responsabilités pour le point de données vont toutes à zéro sauf pour le terme j, dont la responsabilité ira à l'unité. Ainsi, dans cette limite, nous obtenons une affectation difficile des points de données aux clusters, tout comme dans l' algorithme moyens, de sorte que
où est défini comme:
Ma question est de savoir comment l'argument ci-dessus tient? A savoir, qu'est-ce que cela signifie pour un terme d'aller à zéro ? Et comment le fait de prendre la limite dans l'équation entraîne-t-il une responsabilité binaire?