J'exécute une simulation rapide pour comparer différentes méthodes de clustering et je suis actuellement confronté à un problème en essayant d'évaluer les solutions de cluster.
Je connais différentes métriques de validation (beaucoup se trouvent dans cluster.stats () dans R), mais je suppose que celles-ci sont mieux utilisées si le nombre estimé de clusters est réellement égal au nombre réel de clusters. Je souhaite conserver la capacité de mesurer la performance d'une solution de clustering lorsqu'elle ne spécifie pas le nombre correct de clusters dans la simulation d'origine (c.-à-d. La qualité des données d'un modèle de solution à trois clusters simulés pour avoir un cluster à 4 clusters) Solution). Juste pour votre information, les clusters sont simulés pour posséder des matrices de covariance identiques.
Je pensais que la divergence KL entre deux mélanges de gaussiens serait utile à mettre en œuvre, mais aucune solution de forme fermée n'existe ( Hershey et Olson (2007) ) et la mise en œuvre d'une simulation de Monte Carlo commence à être coûteuse en termes de calcul.
Existe-t-il d'autres solutions qui pourraient être faciles à mettre en œuvre (même si ce n'est qu'une approximation)?