La plupart des algorithmes de clustering et de réduction de dimensionnalité classiques (clustering hiérarchique, analyse des composants principaux, k-means, cartes auto-organisées ...) sont conçus spécifiquement pour les données numériques, et leurs données d'entrée sont considérées comme des points dans un espace euclidien.
C'est un problème bien sûr, car de nombreuses questions du monde réel impliquent des données mélangées: par exemple, si nous étudions les bus, la hauteur et la longueur et la taille du moteur seront des nombres, mais nous pourrions également être intéressés par la couleur (variable catégorielle: bleu / rouge / vert ...) et classes de capacité (variable ordonnée: petite / moyenne / grande capacité). Plus précisément, nous pourrions vouloir étudier ces différents types de variables simultanément.
Il existe un certain nombre de méthodes pour étendre les algos de clustering classiques à des données mixtes, par exemple en utilisant une dissemblance Gower pour se connecter à un clustering hiérarchique ou à une mise à l'échelle multidimensionnelle, ou à d'autres méthodes qui prennent une matrice de distance en entrée. Ou par exemple cette méthode, une extension de SOM à des données mixtes.
Ma question est: pourquoi ne pouvons-nous pas simplement utiliser la distance euclidienne sur des variables mixtes? ou pourquoi est-ce mauvais de le faire? Pourquoi ne pouvons-nous pas simplement coder de manière fictive les variables catégorielles, normaliser toutes les variables afin qu'elles aient un poids similaire dans la distance entre les observations et exécuter les algos habituels sur ces matrices?
C'est vraiment facile et jamais fait, donc je suppose que c'est très faux, mais quelqu'un peut-il me dire pourquoi? Et / ou donnez-moi quelques références? Merci