Dans Applied Predictive Modeling de Kuhn et Johnson, les auteurs écrivent:
Enfin, ces arbres souffrent d'un biais de sélection: les prédicteurs avec un nombre plus élevé de valeurs distinctes sont favorisés par rapport aux prédicteurs plus granulaires (Loh et Shih, 1997; Carolin et al., 2007; Loh, 2010). Loh et Shih (1997) ont remarqué que «le danger survient lorsqu'un ensemble de données se compose d'un mélange de variables informatives et de bruit, et les variables de bruit ont beaucoup plus de divisions que les variables informatives. Il y a alors une forte probabilité que les variables de bruit soient choisies pour diviser les nœuds supérieurs de l'arbre. L'élagage produira soit un arbre avec une structure trompeuse, soit aucun arbre. »
Kuhn, Max; Johnson, Kjell (2013-05-17). Modélisation prédictive appliquée (emplacements Kindle 5241-5247). Springer New York. Édition Kindle.
Ils décrivent ensuite des recherches sur la construction d'arbres impartiaux. Par exemple le modèle GUIDE de Loh.
En restant aussi strictement que possible dans le cadre de CART, je me demande si je peux faire quelque chose pour minimiser ce biais de sélection? Par exemple, le regroupement / regroupement de prédicteurs à cardinalité élevée est une stratégie. Mais dans quelle mesure doit-on faire le regroupement? Si j'ai un prédicteur à 30 niveaux, dois-je regrouper à 10 niveaux? 15? 5?