Arbre de décision avec variable d'entrée continue


8

Il est connu que lors de la construction d'un arbre de décision, nous divisons la variable d'entrée de manière exhaustive et trouvons la «meilleure» répartition par approche de test statistique ou approche par fonction d'impureté.

Ma question est quand nous utilisons une variable continue comme variable d'entrée (seulement quelques valeurs dupliquées), le nombre de divisions possibles pourrait être très grand, pour trouver la meilleure division prendra du temps. Comment le data scientist s'en occuperait-il?

J'ai lu certains documents que les gens feraient un regroupement des niveaux d'entrée pour limiter les divisions possibles. ( exemple ). Cependant, ils n'expliquent pas comment cela se fait. Sur quoi nous basons-nous pour regrouper une variable univariée? Existe-t-il des ressources pour plus de détails ou n'importe qui peut expliquer en détail?

Merci!


Il n'y a pas un algorithme pour entraîner une forêt aléatoire mais plusieurs. Par exemple ID3, C4.5, CART, CHAID ou MARS. La réponse à votre question dépend fortement de l'algorithme utilisé ...
MaxBenChrist

@MaxBenChrist Pourriez-vous en choisir un ou deux, par exemple CART pour expliquer comment les variables d'entrée sont regroupées? Merci!
pe-perry

Les algorithmes se diviseraient par bins / intervalles et trouveraient le point qui donne les résultats les plus gourmands.
HelloWorld

Réponses:


11

La méthode courante consiste à vérifier uniquement certains casiers comme point / seuil de division. Je pense que c'est à cela que fait référence l'auteur de la présentation que vous avez publiée. Disons que vous avez une variable aléatoire d'entrée continue avec les 10 échantillonsX

[1,3,4,6,2,5,18,10, -3, -5]

Vous ne contrôlez probablement pas chaque valeur de parmi les 10 valeurs observées comme point de partage. Au lieu de cela, par exemple, vous calculez simplement vérifier le quantile 20%, 40%, 60%, 80% de vos données. Vous commandez donc vos donnéesX

[-5, -3,1,2,3,4,5,6,10,18]

et "regrouper" vos données dans des bacs

[-5, -3], [1,2], [3,4], [5,6], [10,18]

Ainsi, vous n'auriez qu'à vérifier -1,2,5,4,5 et 8 comme point de partage possible (vous interpolez linéairement entre les bacs)

L' article suivant compare trois règles sur la façon de choisir les points de partage à tester. Je pense que c'est ce que vous recherchez.

@article {chickeringefficient, title = {Détermination efficace des points de partage dynamiques dans un arbre de décision}, auteur = {Chickering, David Maxwell et Meek, Christopher et Rounthwaite, Robert}}

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.