J'étudie les arbres de classification et de régression, et l'une des mesures pour l'emplacement divisé est le score GINI.
Maintenant, je suis habitué à déterminer le meilleur emplacement divisé lorsque le log du rapport de vraisemblance des mêmes données entre deux distributions est nul, ce qui signifie que la probabilité d'appartenance est également probable.
Mon intuition dit qu'il doit y avoir une connexion quelconque, que GINI doit avoir une bonne base dans une théorie mathématique de l'information (Shannon) mais je ne comprends pas assez bien GINI pour dériver la relation moi-même.
Des questions:
- Quelle est la dérivation des «premiers principes» du score d'impureté GINI comme mesure de fractionnement?
- Comment le score GINI est-il lié au logarithme du rapport de vraisemblance ou à d'autres principes théoriques de l'information (Shannon Entropy, pdf , et entropie croisée en font partie)?
Les références:
- Comment est défini le critère de Gini pondéré?
- Mathématiques derrière les arbres de classification et de régression
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(ajouté) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
L'entropie de Shannon est décrite comme suit:
En étendant cela au cas multivarié, nous obtenons:
L'entropie conditionnelle est définie comme suit:
Le logarithme du rapport des probabilités est utilisé pour la détection de changements brusques et est dérivé en utilisant ces derniers. (Je n'ai pas de dérivation devant moi.)
Impureté GINI:
- La forme générale de l'impureté GINI est
Pensées:
- Le fractionnement se fait sur une mesure d'impureté. Une "pureté" élevée est probablement la même chose qu'une faible entropie. L'approche est probablement liée à la minimisation de l'entropie.
- Il est probable que la distribution de base supposée soit uniforme, ou peut-être avec un gaussien ondulant à la main. Ils font probablement un mélange de distributions.
- Je me demande si la dérivation du graphique Shewhart peut s'appliquer ici?
- L'impureté GINI ressemble à l'intégrale de la fonction de densité de probabilité pour une distribution binomiale avec 2 essais et un succès.
(Additionnel)
- La forme est également cohérente avec une distribution bêta-binomiale qui est un conjugué antérieur à une distribution hypergéométrique. Les tests hypergéométriques sont souvent utilisés pour déterminer quels échantillons sont sur ou sous-représentés dans un échantillon. Il existe également une relation avec le test exact de Fisher, quel qu'il soit (note à moi-même, allez en savoir plus à ce sujet).
Edit: je soupçonne qu'il existe une forme de GINI qui fonctionne très bien avec la logique numérique et / ou les arbres rb. J'espère explorer cela dans un projet de classe cet automne.