J'ai cherché dans les questions concernant l'encodage catégorique des fonctionnalités, mais je n'ai trouvé aucune discussion sur mon problème. Toutes mes excuses si je l'ai raté.
Disons que nous avons un ensemble de données avec des variables binaires et nominales d'importance à peu près égale.
La plupart des classificateurs ne peuvent pas traiter directement les types catégoriels, donc ceux-ci doivent être transformés - par exemple en utilisant un codage à chaud (variables factices) comme expliqué dans cette réponse .
Si une variable catégorielle a une cardinalité élevée, l'encodage de cette façon ne "surchargerait" pas les autres variables (par exemple binaires)? Par «cardinalité», j'entends le nombre de catégories dans une variable nominale.
Si notre modèle de classificateur connaît les relations entre les variables, ne tenterait-il pas inutilement de trouver des relations entre les "composants" fictifs binaires introduits de la même variable?
Et si oui, comment y remédier?
La meilleure solution à laquelle je peux penser est de regrouper logiquement les propriétés de haute cardinalité dans des "compartiments", mais s'il y a suffisamment de valeurs uniques pour être un problème, les regrouper manuellement serait également très laborieux.
Edit: C'est trivial et ne résout que partiellement le problème, mais l'une des choses que j'ai fini par faire est de remplacer toutes les valeurs catégorielles relativement rares par une nouvelle catégorie "autre". L'optimisation du seuil de prise en compte de la valeur "rare" peut prendre du temps, mais au moins cette approche peut être automatisée.