Mesures de performance pour évaluer l'apprentissage non supervisé

En ce qui concerne l'apprentissage non supervisé (comme la mise en cluster), existe-t-il des métriques permettant d'évaluer les performances?

— utilisateur3125
source

doublon possible de la mesure d'évaluation du regroupement (sans étiquettes de vérité)

— steffen

Je pense que cette question est plus générale que celle-là, alors je vote pour laisser cette question ouverte.

— Peter Flom - Réintégrer Monica

J'ai eu la même question que vous et certaines références (non encore complètement lues) sont pertinentes: Enquête sur la mesure de la validité interne pour la validation de grappes L.Jegatha Deborah, R.Baskaran, A.Kannan et Techniques de mesure de la validité des grappes Ferenc Kovács, Csaba Legány, Attila Babos

— kasterma

Dans un certain sens, je pense que cette question est sans réponse. Je dis cela parce que l'efficacité d'une méthode particulière non supervisée dépend en grande partie de la raison pour laquelle vous effectuez un apprentissage non supervisé en premier lieu, c.-à-d. Si la méthode est performante dans le contexte de votre objectif final. Évidemment, ce n'est pas tout à fait vrai, les gens travaillent sur ces problèmes et publient des résultats incluant une sorte d'évaluation. Je vais décrire ci-dessous quelques-unes des approches que je connais bien.

Une bonne ressource (avec des références) pour le clustering est la page de documentation de sklearn, intitulée Clustering Performance Evaluation . Cela couvre plusieurs méthodes, mais toutes sauf une, le coefficient Silhouette, supposent que des étiquettes de vérité sont disponibles. Cette méthode est également mentionnée dans la question Mesure d’évaluation du regroupement , liée aux commentaires de cette question.

Si votre méthode d'apprentissage non supervisé est probabiliste, vous pouvez également évaluer certaines mesures de probabilité (log-vraisemblance, perplexité, etc.) sur des données conservées. La motivation ici est que si votre méthode d’apprentissage non supervisé attribue une probabilité élevée à des données similaires qui n’ont pas été utilisées pour s’ajuster aux paramètres, elle a probablement bien réussi à capturer la distribution des intérêts. Un domaine où ce type d'évaluation est couramment utilisé est la modélisation du langage.

La dernière option que je mentionnerai consiste à utiliser un apprenant supervisé pour une tâche auxiliaire connexe. Si votre méthode non supervisée produit des variables latentes, vous pouvez les considérer comme une représentation de l'entrée. Il est donc judicieux d’utiliser ces variables latentes comme entrée d’un classifieur supervisé effectuant une tâche liée au domaine dont proviennent les données. La performance de la méthode supervisée peut alors servir de substitut à la performance de l'apprenant non supervisé. C'est essentiellement la configuration que vous voyez dans la plupart des travaux sur l'apprentissage de la représentation.

Cette description est probablement un peu nébuleuse, je vais donc donner un exemple concret. Presque tout le travail sur l'apprentissage de la représentation des mots utilise l'approche suivante pour l'évaluation:

Apprendre des représentations de mots en utilisant un apprenant non supervisé.
Utilisez les représentations apprises comme entrée pour un apprenant supervisé effectuant une tâche PNL telle que des éléments de balisage de la parole ou de reconnaissance d'entités nommées.
Evaluez les performances de l'apprenant non supervisé en fonction de sa capacité à améliorer les performances de l'apprenant supervisé par rapport à une référence utilisant une représentation standard, telle que des fonctionnalités de présence de mots binaires,.

Pour un exemple de cette approche en action, voir l'étude Entraînement de Boltzmann restreint sur les observations de mots de Dahl et al.

— alto
source

+1 " la qualité d'une méthode non supervisée donnée dépendra en grande partie de la raison pour laquelle on fait un apprentissage non supervisé en premier lieu " résume assez bien la situation. Ne cherchez pas un nombre magique que vous pouvez utiliser pour justifier un résultat donné sans interpréter le résultat .

— Marc Claesen

J'ajouterais également que l'utilisation d'une approche supervisée comme indicateur indirect du fonctionnement d'une approche non supervisée ne nécessite pas la découverte de nouvelles fonctionnalités. Par exemple, le clustering n'apprend pas de nouvelles fonctionnalités. Pourtant, le clustering est souvent utilisé pour améliorer la précision des prévisions d'un apprenant supervisé, avec l'avantage supplémentaire d'expliquer pourquoi cela peut être ainsi. Par exemple, la classification en k-means peut produire k prédictions qui sont chacune améliorées en exploitant la structure découverte et en utilisant la compression de la classification. Voir ttic.uchicago.edu/~shubhendu/Papers/clustering_bagging.pdf

— Cybernétique