Je cherche à regrouper un petit ensemble de données (64 observations de 4 variables d'intervalle et une seule variable catégorielle à trois facteurs). Maintenant, je suis assez nouveau dans l'analyse de cluster, mais je suis conscient qu'il y a eu des progrès considérables depuis l'époque où le clustering hiérarchique ou k-means étaient les seules options disponibles. En particulier, il semble que de nouvelles méthodes de clustering basées sur des modèles soient disponibles qui, comme souligné par chl , permettent l'utilisation "d'indices de qualité d'ajustement pour décider du nombre de clusters ou de classes".
Cependant, le package R standard pour le clustering basé sur des mclust
modèles ne convient apparemment pas aux modèles avec des types de données mixtes. Le fpc
modèle le fera, mais a du mal à s'adapter à un modèle, je suppose en raison de la nature non gaussienne des variables continues. Dois-je continuer avec l'approche basée sur un modèle? J'aimerais continuer à utiliser R si possible. Selon moi, j'ai quelques options:
- Convertissez la variable catégorielle à trois niveaux en deux variables fictives et utilisez
mclust
. Je ne sais pas si cela faussera les résultats, mais sinon c'est mon option préférée. - Transformez les variables continues en quelque sorte et utilisez le
fpc
package. - Utilisez un autre package R que je n'ai pas encore rencontré.
- Créez une matrice de dissimilarité en utilisant la mesure de Gower et utilisez les techniques traditionnelles de cluster hiérarchique ou de délocalisation.
Le stats.se hivemind a-t-il des suggestions ici?