Il est connu que lors de la construction d'un arbre de décision, nous divisons la variable d'entrée de manière exhaustive et trouvons la «meilleure» répartition par approche de test statistique ou approche par fonction d'impureté.
Ma question est quand nous utilisons une variable continue comme variable d'entrée (seulement quelques valeurs dupliquées), le nombre de divisions possibles pourrait être très grand, pour trouver la meilleure division prendra du temps. Comment le data scientist s'en occuperait-il?
J'ai lu certains documents que les gens feraient un regroupement des niveaux d'entrée pour limiter les divisions possibles. ( exemple ). Cependant, ils n'expliquent pas comment cela se fait. Sur quoi nous basons-nous pour regrouper une variable univariée? Existe-t-il des ressources pour plus de détails ou n'importe qui peut expliquer en détail?
Merci!