J'ai des données brutes qui ont environ 20 colonnes (20 fonctionnalités). Dix d'entre elles sont des données continues et 10 d'entre elles sont catégoriques. Certaines des données catégorielles peuvent avoir comme 50 valeurs différentes (États-Unis). Après avoir prétraité les données, les 10 colonnes continues deviennent 10 colonnes préparées et les 10 valeurs catégorielles deviennent comme 200 variables codées à chaud. Je crains que si je mets toutes ces fonctionnalités 200 + 10 = 210 dans le réseau neuronal, les fonctionnalités 200-one-hot (les 10 colonnes catégorielles) domineront totalement les fonctionnalités 10-continues.
Une méthode serait peut-être de «regrouper» les colonnes ou quelque chose. Est-ce une préoccupation valable et existe-t-il un moyen standard de traiter ce problème?
(J'utilise Keras, bien que je ne pense pas que cela ait beaucoup d'importance.)