J'essaie de comprendre comment comprendre pleinement le processus de décision d'un modèle de classification d'arbre de décision construit avec sklearn. Les 2 principaux aspects que je regarde sont une représentation graphique de l'arbre et la liste des importances de fonctionnalités. Ce que je ne comprends pas, c'est comment l'importance des fonctionnalités est déterminée dans le contexte de l'arbre. Par exemple, voici ma liste d'importances de fonctionnalités:
Classement des fonctionnalités: 1. FeatureA (0.300237)
Fonction B (0,166800)
Fonction C (0,092472)
Fonction D (0,075009)
Fonction E (0,068310)
Fonction F (0,067118)
Fonction G (0,066510)
Fonction H (0,043502)
Fonction I (0,040281)
Fonction J (0,039006)
Fonction K (0,032618)
FonctionnalitéL (0,008136)
FonctionnalitéM (0,000000)
Cependant, quand je regarde le haut de l'arbre, cela ressemble à ceci:
En fait, certaines des caractéristiques classées «les plus importantes» n'apparaissent que beaucoup plus bas dans l'arborescence, et le sommet de l'arborescence est FeatureJ, qui est l'une des entités les moins bien classées. Mon hypothèse naïve serait que les caractéristiques les plus importantes seraient classées près du sommet de l'arbre pour avoir le plus grand impact. Si c'est incorrect, alors qu'est-ce qui rend une fonctionnalité «importante»?