Comment les algorithmes d'apprentissage de l'arbre de décision gèrent-ils les valeurs manquantes (sous le capot)

Quelles sont les méthodes utilisées par les algorithmes d'apprentissage de l'arbre de décision pour gérer les valeurs manquantes.

Remplissent-ils simplement l'emplacement en utilisant une valeur appelée manquante?

Merci.

missing-data cart

— user1172468
source

Il existe plusieurs méthodes utilisées par divers arbres de décision. Ignorer simplement les valeurs manquantes (comme le fait ID3 et d'autres anciens algorithmes) ou traiter les valeurs manquantes comme une autre catégorie (dans le cas d'une fonctionnalité nominale) ne sont pas de véritables manipulations de valeurs manquantes. Cependant, ces approches ont été utilisées aux premiers stades du développement de l'arbre de décision.

Les approches de gestion réelle des données manquantes n'utilisent pas de point de données avec des valeurs manquantes dans l'évaluation d'une division. Cependant, lorsque des nœuds enfants sont créés et formés, ces instances sont distribuées d'une manière ou d'une autre.

Je connais les approches suivantes pour distribuer les instances de valeur manquantes aux nœuds enfants:

tout va au nœud qui a déjà le plus grand nombre d'instances (CART, n'est pas la règle principale)
distribuer à tous les enfants, mais avec des poids diminués, proportionnels au nombre d'instances de chaque nœud enfant (C45 et autres)
distribuer aléatoirement à un seul nœud enfant, éventuellement selon une distribution catégorielle (j'ai vu cela dans diverses implémentations de C45 et CART pour un temps d'exécution plus rapide)
créer, trier et utiliser des substituts pour distribuer des instances à un nœud enfant, où les substituts sont des fonctionnalités d'entrée qui ressemblent le mieux à la façon dont la fonctionnalité de test envoie des instances de données au nœud enfant gauche ou droit (CART, si cela échoue, la règle de la majorité est utilisée)

— rapaio
source