J'ai un jeu de données X qui a 10 dimensions, dont 4 sont des valeurs discrètes. En fait, ces 4 variables discrètes sont ordinales, c'est-à-dire qu'une valeur plus élevée implique une sémantique plus élevée / meilleure.
2 de ces variables discrètes sont catégoriques en ce sens que pour chacune de ces variables, la distance, par exemple de 11 à 12, est différente de la distance de 5 à 6. Tandis qu'une valeur de variable plus élevée implique une valeur plus élevée en réalité, l'échelle est: pas nécessairement linéaire (en fait, ce n’est pas vraiment défini).
Ma question est:
- Est-ce une bonne idée d’appliquer un algorithme de classification commun (par exemple, K-Means, puis Gaussian Mixture (GMM)) à cet ensemble de données contenant à la fois des variables discrètes et des variables continues?
Si non:
- Devrais-je supprimer les variables discrètes et me concentrer uniquement sur les variables continues?
- Devrais-je mieux discrétiser les processus continus et utiliser un algorithme de classification pour les données discrètes?