L’un des problèmes les plus importants de l’analyse par grappes est qu’il peut arriver que nous devions tirer des conclusions différentes lorsque nous nous basons sur différentes méthodes de classification utilisées (y compris différentes méthodes de couplage dans une classification hiérarchique).
J'aimerais connaître votre opinion à ce sujet - quelle méthode allez-vous choisir et comment. On pourrait dire "la meilleure méthode de classification est celle qui vous donne la bonne réponse"; mais je peux poser la question suivante: l’analyse par grappes est supposée être une technique non supervisée - alors, comment savoir quelle méthode ou quel lien est la bonne réponse?
En général: un cluster à lui seul est-il assez robuste pour pouvoir compter? Ou nous avons besoin d’une deuxième méthode et d’obtenir un résultat partagé fondé sur les deux?
Ma question ne concerne pas seulement les moyens possibles de valider / évaluer les performances du clustering, mais elle est plus large: sur quelle base choisissons-nous / préférons-nous une méthode / un algorithme de clustering par rapport à un autre? En outre, existe-t-il des avertissements courants que nous devrions examiner lorsque nous sélectionnons une méthode pour regrouper nos données?
Je sais que c'est une question très générale et très difficile à répondre. Je voudrais seulement savoir si vous avez des commentaires, des conseils ou des suggestions à me faire pour en savoir plus à ce sujet.