Quelle est la justification, le cas échéant, pour utiliser l'analyse discriminante (DA) sur les résultats d'un algorithme de clustering comme k-means, comme je le vois de temps en temps dans la littérature (essentiellement sur le sous-typage clinique des troubles mentaux)?
Il n'est généralement pas recommandé de tester les différences de groupe sur les variables qui ont été utilisées pendant la construction du cluster car elles prennent en charge la maximisation (resp. Minimisation) de l'inertie inter-classe (resp. Intra-classe). Donc, je ne suis pas sûr d'apprécier pleinement la valeur ajoutée de la DA prédictive, à moins que nous ne cherchions à intégrer les individus dans un espace factoriel de dimension inférieure et à avoir une idée de la «généralisabilité» d'une telle partition. Mais même dans ce cas, l'analyse de cluster reste fondamentalement un outil exploratoire, donc l'utilisation de l'appartenance à une classe calculée de cette façon pour dériver une règle de notation semble étrange à première vue.
Avez-vous des recommandations, des idées ou des pointeurs vers des articles pertinents?
R
: cran.r-project.org/web/packages/adegenet/vignettes/…