Coefficient de Gini vs impureté de Gini - Arbres de décision


25

Le problème se réfère à la construction d'arbres de décision. Selon Wikipedia, le « coefficient de Gini » ne doit pas être confondu avec «l' impureté de Gini ». Cependant, les deux mesures peuvent être utilisées lors de la construction d'un arbre de décision - elles peuvent soutenir nos choix lors de la division de l'ensemble des éléments.

1) «impureté de Gini» - il s'agit d'une métrique de fractionnement d'arbre de décision standard (voir dans le lien ci-dessus);

2) «coefficient de Gini» - chaque fractionnement peut être évalué sur la base du critère AUC. Pour chaque scénario de fractionnement, nous pouvons construire une courbe ROC et calculer la métrique AUC. Selon Wikipedia AUC = (GiniCoeff + 1) / 2;

La question est: ces deux mesures sont-elles équivalentes? D'une part, je suis informé que le coefficient de Gini ne doit pas être confondu avec l'impureté de Gini. D'un autre côté, ces deux mesures peuvent être utilisées pour faire la même chose - évaluer la qualité d'une division d'arbre de décision.


Je suis venu à cette question à la recherche d'une définition: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
Martin Thoma

Réponses:


28

Non, malgré leurs noms, ils ne sont pas équivalents ni même similaires.

  • L'impureté de Gini est une mesure de classification erronée, qui s'applique dans un contexte de classificateur multiclasse.
  • Le coefficient de Gini s'applique à la classification binaire et nécessite un classificateur qui peut en quelque sorte classer les exemples selon la probabilité d'être dans une classe positive.

Les deux pourraient être appliqués dans certains cas, mais ce sont des mesures différentes pour des choses différentes. L'impureté est ce qui est couramment utilisé dans les arbres de décision .


7

J'ai pris un exemple de données avec deux personnes A et B avec une richesse de l'unité 1 et de l'unité 3 respectivement. Gini Impureté selon Wikipedia = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8

Le coefficient de Gini selon Wikipedia serait le rapport de l'aire entre la ligne rouge et bleue à l'aire totale sous la ligne bleue dans le graphique suivant

entrez la description de l'image ici

L'aire sous la ligne rouge est 1/2 + 1 + 3/2 = 3

Surface totale sous la ligne bleue = 4

Coefficient de Gini = 3/4

De toute évidence, les deux nombres sont différents. Je vais vérifier plus de cas pour voir s'ils sont proportionnels ou s'il existe une relation exacte et modifier la réponse.

Edit: j'ai aussi vérifié d'autres combinaisons, le rapport n'est pas constant. Voici une liste de quelques combinaisons que j'ai essayées. entrez la description de l'image ici


Quelle explication !!
Valeur aberrante

0

Je pense qu'ils représentent tous les deux le même concept.

Dans les arbres de classification, l'indice de Gini est utilisé pour calculer l'impureté d'une partition de données. Supposons donc la partition de données D composée de 4 classes chacune avec une probabilité égale. L'indice Gini (impureté Gini) sera alors: Gini (D) = 1 - (0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2 + 0,25 ^ 2)

Dans CART, nous effectuons des divisions binaires. Ainsi, l'index gini sera calculé comme la somme pondérée des partitions résultantes et nous sélectionnons la division avec le plus petit index gini.

L'utilisation de Gini Impurity (Gini Index) n'est donc pas limitée aux situations binaires.

Un autre terme pour Gini Impureté est le coefficient de Gini qui est utilisé normalement comme mesure de la distribution des revenus.


3
Le coefficient de Gini n'est pas l'impureté de Gini. Voir les liens dans la question
Sean Owen

2
Wikipédia n'est pas toujours une source d'informations fiable :-)
Pasmod Turing

2
Sûr. Allez le chercher ailleurs: mathworld.wolfram.com/GiniCoefficient.html Qu'est-ce qui vous fait penser coefficient de Gini = impureté de Gini?
Sean Owen


1
Je pense que nous parlons d'arbres de décision. Nous sommes donc dans le domaine de l'apprentissage automatique! Veuillez lire la question plus attentivement
Pasmod Turing
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.