J'écris actuellement une implémentation de Random Forests mais je crois que la question est spécifique aux arbres de décision (indépendants des RF).
Le contexte est donc que je crée un nœud dans un arbre de décision et que les variables de prédiction et de cible sont continues. Le nœud a un seuil divisé pour partitionner les données en deux ensembles, et je crée une nouvelle prédiction pour chaque sous-ensemble en fonction de la valeur cible moyenne dans chaque ensemble. Est-ce la bonne approche?
La raison pour laquelle je demande, c'est que lors de la prédiction de variables binaires , je crois que l'approche typique (correcte?) Consiste à diviser les données en sous-ensembles 0 et 1 sans prendre une moyenne sur les lignes de données de chaque sous-ensemble. Les divisions ultérieures se diviseront en sous-ensembles à grains plus fins et une moyenne à chaque division résultera des divisions ultérieures (plus bas dans l'arbre de décision) opérant sur ce qui sont maintenant des variables continues plutôt que des variables binaires (parce que nous opérons sur les valeurs d'erreur résiduelles au lieu de l'original cibles).
Question secondaire: la distinction entre les deux approches (binaire vs continue) est-elle significative - ou donnera-t-elle réellement des résultats identiques pour un arbre de décision complet?