Quelle est la relation entre le score GINI et le rapport log-vraisemblance

J'étudie les arbres de classification et de régression, et l'une des mesures pour l'emplacement divisé est le score GINI.

Maintenant, je suis habitué à déterminer le meilleur emplacement divisé lorsque le log du rapport de vraisemblance des mêmes données entre deux distributions est nul, ce qui signifie que la probabilité d'appartenance est également probable.

Mon intuition dit qu'il doit y avoir une connexion quelconque, que GINI doit avoir une bonne base dans une théorie mathématique de l'information (Shannon) mais je ne comprends pas assez bien GINI pour dériver la relation moi-même.

Des questions:

Quelle est la dérivation des «premiers principes» du score d'impureté GINI comme mesure de fractionnement?
Comment le score GINI est-il lié au logarithme du rapport de vraisemblance ou à d'autres principes théoriques de l'information (Shannon Entropy, pdf , et entropie croisée en font partie)?

Les références:

L'entropie de Shannon est décrite comme suit:

H (x) = Σ_{i} P (x_{i}) \log_{b} P (x_{i})

$H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right)$

En étendant cela au cas multivarié, nous obtenons:

H (X, Y) = Σ_{x} Σ_{y} P (x, y) \log_{b} P (x, y)

$H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right)$

L'entropie conditionnelle est définie comme suit:

\begin{aligned} H (X | Y) & = Σ_{y} p (x, y) \log_{b} \frac{p (x)}{p (x, y)} \\ or, \\ H (X | Y) & = H (X, Y) - H (Y) \end{aligned}

$\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} \newline &\text{or,} \newline H \left(X|Y \right) &= H \left(X,Y \right) - H \left(Y \right) \end{align}$

Le logarithme du rapport des probabilités est utilisé pour la détection de changements brusques et est dérivé en utilisant ces derniers. (Je n'ai pas de dérivation devant moi.)

Impureté GINI:

La forme générale de l'impureté GINI est $I = \sum_{i=1}^m f_{i} \cdot \left( 1-f_{i}\right)$

Pensées:

Le fractionnement se fait sur une mesure d'impureté. Une "pureté" élevée est probablement la même chose qu'une faible entropie. L'approche est probablement liée à la minimisation de l'entropie.
Il est probable que la distribution de base supposée soit uniforme, ou peut-être avec un gaussien ondulant à la main. Ils font probablement un mélange de distributions.
Je me demande si la dérivation du graphique Shewhart peut s'appliquer ici?
L'impureté GINI ressemble à l'intégrale de la fonction de densité de probabilité pour une distribution binomiale avec 2 essais et un succès. $P(x=k)= \begin{pmatrix} 2\\ 1\end{pmatrix} p \left( 1-p \right)$

(Additionnel)

La forme est également cohérente avec une distribution bêta-binomiale qui est un conjugué antérieur à une distribution hypergéométrique. Les tests hypergéométriques sont souvent utilisés pour déterminer quels échantillons sont sur ou sous-représentés dans un échantillon. Il existe également une relation avec le test exact de Fisher, quel qu'il soit (note à moi-même, allez en savoir plus à ce sujet).

Edit: je soupçonne qu'il existe une forme de GINI qui fonctionne très bien avec la logique numérique et / ou les arbres rb. J'espère explorer cela dans un projet de classe cet automne.

— EngrStudent - Réintégrer Monica
source

Est-ce problématique si je réponds à ma propre question?

— EngrStudent

Non pas du tout. Si vous avez trouvé ce que vous pensez être une réponse raisonnable, lancez-vous.

— gung - Rétablir Monica

@EngrStudent. bonne question, mais le premier lien que vous fournissez dans la section des références concerne le coefficient de Gini, qui n'a rien à voir avec la mesure de Gini utilisée dans CART

— Antoine

Concernant l'indice de Gini je viens de poster une interprétation simple: stats.stackexchange.com/questions/308885/…

— Picaud Vincent

Réponses:

Je vais utiliser la même notation que j'ai utilisée ici: Mathématiques derrière les arbres de classification et de régression

Gini Gain et Information Gain ( $IG$ $I$

$\textit{Gini}: \mathit{Gini}(E) = 1 - \sum_{j=1}^{c}p_j^2$
$\textit{Entropy}: H(E) = -\sum_{j=1}^{c}p_j\log p_j$

$\beta$

H_{β} (E) = \frac{1}{β - 1} (1 - \sum_{j = 1}^{c} p_{j}^{β})

$H_\beta (E) = \frac{1}{\beta-1} \left( 1 - \sum_{j=1}^{c}p_j^\beta \right)$

$\textit{Gini}$ $\beta = 2$ $H$ $\beta \rightarrow 1$

$G$

G -statistic = 2 \cdot | E | \cdot I G

$G\text{-statistic} = 2 \cdot |E| \cdot IG$

Selon la communauté (statistiques / exploration de données), les gens préfèrent une mesure ou l'autre (question connexe ici ). Ils pourraient être à peu près équivalents dans le processus d'induction de l'arbre de décision. La vraisemblance du journal peut donner des scores plus élevés aux partitions équilibrées lorsqu'il existe de nombreuses classes [Note technique: certaines propriétés des critères de fractionnement. Breiman 1996].

Gini Gain peut être plus agréable car il n'a pas de logarithmes et vous pouvez trouver la forme fermée pour sa valeur et sa variance attendues sous l'hypothèse de répartition aléatoire [Alin Dobra, Johannes Gehrke: Correction de biais dans la construction d'arbres de classification. ICML 2001: 90-97]. Ce n'est pas aussi facile pour le gain d'informations (si vous êtes intéressé, voir ici ).

— Simone
source

Bonne question. Malheureusement, je n'ai pas encore assez de réputation pour voter ou commenter, alors répondez à la place!

Je ne connais pas très bien le test de rapport, mais il me semble qu'il s'agit d'un formalisme utilisé pour comparer la probabilité que des données proviennent de deux (ou plus) distributions différentes , tandis que le coefficient de Gini est une statistique récapitulative d'une seule distribution.

Une manière utile de penser le coefficient de Gini (IMO) est comme l'aire sous la courbe de Lorenz (liée au cdf).

Il peut être possible d'assimiler l'entropie de Shannon à Gini en utilisant la définition donnée dans l'OP pour l'entropie:

$H = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right)$

et la définition de Gini:

$G = 1 - \frac{1}{\mu}\Sigma_i P(x_i)(S_{i-1} + S_i)$ , où

$S_i = \Sigma_{j=1}^i P(x_i)x_i$ (c'est-à-dire la moyenne cumulée jusqu'à $x_i$ ).

Cela ne semble pas être une tâche facile!

— Gabriel
source

Un rapport de vraisemblance logarithmique est exploité sur les mêmes données. L'une des distributions peut être de la même forme générale que l'autre, mais ses paramètres ont été ajustés aux données lorsqu'un autre critère était vrai. Par exemple, vous pouvez avoir une distribution dont les paramètres décrivent une variation saine du processus de production (pas nécessairement gaussienne) et une autre qui correspond aux valeurs actuelles du processus de production, et opérer sur les valeurs actuelles du processus de production comparer le rapport log-vraisemblance à une valeur de seuil indiquant possibilité d'excursion. On peut comparer le réel à l'idéal.

— EngrStudent