Je veux former un classificateur, par exemple SVM, ou une forêt aléatoire, ou tout autre classificateur. L'une des fonctionnalités de l'ensemble de données est une variable catégorielle avec 1000 niveaux. Quelle est la meilleure façon de réduire le nombre de niveaux dans cette variable. Dans R, il y a une fonction appelée combine.levels()
dans le paquet Hmisc , qui combine des niveaux peu fréquents, mais je cherchais d'autres suggestions.