Analyse de cluster suivie d'une analyse discriminante


10

Quelle est la justification, le cas échéant, pour utiliser l'analyse discriminante (DA) sur les résultats d'un algorithme de clustering comme k-means, comme je le vois de temps en temps dans la littérature (essentiellement sur le sous-typage clinique des troubles mentaux)?

Il n'est généralement pas recommandé de tester les différences de groupe sur les variables qui ont été utilisées pendant la construction du cluster car elles prennent en charge la maximisation (resp. Minimisation) de l'inertie inter-classe (resp. Intra-classe). Donc, je ne suis pas sûr d'apprécier pleinement la valeur ajoutée de la DA prédictive, à moins que nous ne cherchions à intégrer les individus dans un espace factoriel de dimension inférieure et à avoir une idée de la «généralisabilité» d'une telle partition. Mais même dans ce cas, l'analyse de cluster reste fondamentalement un outil exploratoire, donc l'utilisation de l'appartenance à une classe calculée de cette façon pour dériver une règle de notation semble étrange à première vue.

Avez-vous des recommandations, des idées ou des pointeurs vers des articles pertinents?


Voici une explication et un exemple en utilisant R: cran.r-project.org/web/packages/adegenet/vignettes/…
Ben

Réponses:


5

Je ne connais aucun document à ce sujet. J'ai utilisé cette approche, à des fins descriptives. DFA fournit un bon moyen de résumer les différences de groupe et la dimensionnalité par rapport aux variables d'origine. On pourrait plus facilement simplement profiler les groupes sur les variables d'origine, cependant, cela perd la nature intrinsèquement multivariée du problème de clustering. DFA vous permet de décrire les groupes tout en conservant intact le caractère multivarié du problème. Ainsi, il peut aider à l'interprétation des grappes, lorsque c'est un objectif. Ceci est particulièrement idéal lorsqu'il existe une relation étroite entre votre méthode de clustering et votre méthode de classification - par exemple, DFA et la méthode de Ward.

Vous avez raison sur le problème des tests. J'ai publié un article utilisant le suivi de l'analyse de cluster avec DFA pour décrire la solution de clustering. J'ai présenté les résultats DFA sans statistiques de test. Un critique a contesté cela. J'ai concédé et mis les statistiques de test et les valeurs de p dedans, avec l'avertissement que ces valeurs de p ne devraient pas être interprétées de la manière traditionnelle.


Quelles seraient les étapes procédurales de DA après le clustering? Pouvez-vous penser à d'autres techniques pour découvrir quelles variables originales rendent certains clusters différents des autres?
danas.zuokas

Voulez-vous partager la citation de ce document, Brett?
Roman Luštrik

Weissman & Magill. 2008. «Développer une typologie des étudiants pour examiner l'efficacité des séminaires de première année» Journal of The First-Year Experience & Students in Transition 20 (2). Contactez-moi hors ligne si vous voulez une copie papier.
Brett
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.