Nombre optimal de composants dans un mélange gaussien

Ainsi, avoir une "idée" du nombre optimal de clusters dans k-means est bien documenté. J'ai trouvé un article sur comment faire ça dans des mélanges gaussiens, mais pas sûr que j'en sois convaincu, je ne le comprends pas très bien. Existe-t-il une manière ... plus douce de procéder?

— JEquihua
source

Pourriez-vous citer l'article, ou au moins décrire la méthodologie qu'il propose? Il est difficile de trouver une manière "plus douce" de faire cela si nous ne connaissons pas la ligne de base :)

— jbowman

Geoff McLachlan et d'autres ont écrit des livres sur les distributions de mélanges. Je suis sûr que cela inclut des approches pour déterminer le nombre de composants dans un mélange. Vous pourriez probablement y regarder. Je suis d'accord avec jbowman qu'il serait préférable de soulager votre confusion si vous nous indiquiez de quoi vous êtes confus.

— Michael R. Chernick

L'estimation du nombre optimal de mélanges gaussiens sur la base de k-moyennes incrémentielles pour l'identification des locuteurs ... est son titre, il est gratuit à télécharger. Il incrémente fondamentalement le nombre de clusters de 1 jusqu'à ce que vous voyiez que deux clusters deviennent dépendants l'un de l'autre, quelque chose comme ça. Je vous remercie!

— JEquihua

Pourquoi ne pas simplement choisir le nombre de composants qui maximise l'estimation de validation croisée de la probabilité? Il est coûteux en calcul, mais la validation croisée est difficile à battre dans la plupart des cas pour la sélection du modèle, sauf s'il existe un grand nombre de paramètres à régler.

— Dikran Marsupial

Pouvez-vous expliquer un peu quelle est l'estimation de validation croisée de la probabilité? Je ne connais pas le concept. Je vous remercie.

— JEquihua

Juste une extension du commentaire de Dikran Marsupial (validation croisée). L'idée principale est de diviser vos données en ensembles de formation et de validation d'une manière ou d'une autre, d'essayer différents nombres de composants et de sélectionner les meilleurs en fonction des valeurs de probabilité de formation et de validation correspondantes.

La probabilité pour GMM est juste par définition, où est le nombre de composants (clusters) et , , sont des paramètres de modèle. En modifiant la valeur de vous pouvez tracer la probabilité GMM pour les ensembles de formation et de validation comme suit. $p(x|\pi,\mu,\Sigma)=\sum_K\pi_kN(x|\mu_k,\Sigma_k)$ $K$ $\pi$ $\mu$ $\Sigma$ $K$

Dans cet exemple, il devrait être évident que le nombre optimal de composants est d'environ 20. Il y a une belle vidéo à ce sujet sur Coursera, et c'est là que j'ai obtenu l'image ci-dessus.

Une autre méthode couramment utilisée est le critère d'information bayésien (BIC) : où est la probabilité, K le nombre de paramètres et le nombre de points de données. Cela peut être compris comme l'ajout d'une pénalité pour le nombre de paramètres à la vraisemblance logarithmique.

B I C = - 2 \log (L) + K \log (n)

$BIC = -2\log(L)+K\log(n)$

L

$L$

n

$n$

— dontloo
source