J'essayais d'utiliser les importances de fonctionnalités de Random Forests pour effectuer une sélection de fonctionnalités empiriques pour un problème de régression où toutes les fonctionnalités sont catégoriques et beaucoup d'entre elles ont de nombreux niveaux (de l'ordre de 100-1000). Étant donné que l'encodage à chaud crée une variable fictive pour chaque niveau, l'importance des fonctionnalités est pour chaque niveau et non pour chaque fonctionnalité (colonne). Quelle est la bonne façon d'agréger ces importances de fonctionnalités?
J'ai pensé à additionner ou à obtenir l'importance moyenne pour tous les niveaux d'une fonctionnalité (probablement la première sera orientée vers les fonctionnalités avec plus de niveaux). Y a-t-il des références sur cette question?
Que peut-on faire d'autre pour diminuer le nombre de fonctionnalités? Je connais le lasso de groupe, je n'ai rien trouvé de facile à utiliser pour scikit-learn.