Quelqu'un peut-il m'expliquer quand utiliser l'impureté Gini et le gain d'informations pour les arbres de décision? Pouvez-vous me donner des situations / des exemples de la meilleure façon de les utiliser?
Quelqu'un peut-il m'expliquer quand utiliser l'impureté Gini et le gain d'informations pour les arbres de décision? Pouvez-vous me donner des situations / des exemples de la meilleure façon de les utiliser?
Réponses:
Vous devez les essayer tous les deux dans le cadre du réglage des paramètres.
Théoriquement, l'impureté de Gini minimise le score de Brier tandis que le gain d'entropie / d'information minimise la perte de journal, de sorte que ceux qui vous intéressent font une différence. Cependant, d'autres choses comme la probabilité que chacun découvre des effets multivariés dans la croissance des arbres gourmands au lieu d'être "distraits" par des effets univariés qui jouent également un rôle dans les choses. C'est-à-dire que vous pouvez obtenir une meilleure généralisation à partir d'une métrique d'impureté qui ne sélectionne pas toujours la «meilleure» division.
Dans la pratique (dans le contexte de rf, plus que cart), j'ai trouvé que l'entropie fonctionne mieux pour des ensembles de données de faible dimension plus propres où vous essayez d'ajuster un signal plus complexe aussi bien que possible tandis que gini fonctionne mieux pour les bruyants, très dimensionnels ceux où vous essayez de découvrir un signal simple parmi de nombreux signaux potentiels bruyants. Ceci n'est que mon expérience et ne se maintiendra certainement pas dans tous les cas.
Remarque: a commencé comme un commentaire, mais a été supprimé et déplacé vers une réponse pour formater et développer des éléments.