Pourquoi calculons-nous la valeur des informations?

J'ai les données avec des variables catégorielles et des variables continues, mais c'est la nécessité de trouver la valeur de l'information dans l'analyse explicative des données.

Donnez simplement la raison pour laquelle nous calculons la valeur de l'information pour chaque variable au début de l'analyse des données et quel sera le point de coupure de la valeur de l'information pour prendre en charge l'analyse

data-visualization

— user43247
source

Veuillez nous dire plus précisément à quoi se réfère le calcul de la "valeur d'information": il ne semble pas y avoir de signification quantitative normalisée pour ce terme que tous les lecteurs comprendront de la même manière. Lorsque vous modifiez votre question, veuillez également fournir plus de contexte pour nous aider à comprendre le type d'analyse dont vous discutez et à quoi sert le "point de coupure".

— whuber

De manière générale, la valeur de l'information fournit une mesure de l'efficacité d'une variable $X$ est capable de faire la distinction entre une réponse binaire (par exemple "bonne" et "mauvaise") dans une variable cible $Y$ . L'idée est que si une variable $X$ a une faible valeur d'information, il peut ne pas faire un travail suffisant de classification de la variable cible et est donc supprimé en tant que variable explicative.

Pour voir comment cela fonctionne, laissez $X$ être regroupé en $n$ bacs. Chaque $x \in X$ correspond à un $y \in Y$ qui peut prendre l'une des deux valeurs, disons 0 ou 1. Ensuite, pour les bacs $X_i$ , $1 \leq i \leq n$ ,

I V = \sum_{i = 1}^{n} (g_{i} - b_{i}) * \ln (g_{i} / b_{i})

$IV= \sum_{i=1}^n (g_i-b_i)*\ln(g_i/b_i)$

où

$b_i= (\#$ de $0$ 'péché $X_i)/(\#$ de $0$ 'péché $X) =$ la proportion de $0$ est dans le bac $i$ contre tous les bacs

$g_i= (\#$ de $1$ 'péché $X_i)/(\#$ de $1$ 'péché $X) =$ la proportion de $1$ est dans le bac $i$ contre tous les bacs

$\ln(g_i/b_i)$ est également connu comme le poids de la preuve (pour bin $X_i$ ). Les valeurs limites peuvent varier et la sélection est subjective. J'utilise souvent $IV < 0.3$ (comme le fait [1] ci-dessous).

Dans le contexte de la notation du crédit, ces deux ressources devraient aider:

[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf

[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf

— dmanuge
source

Connaissez-vous une sorte de correction pour le calcul de la valeur des informations lorsque l'un des bacs est tout bon ou tout mauvais? Mon idée est d'ajouter 1 à chaque colonne de chaque bac pour corriger cette situation. Je me demande s'il s'agit d'une pratique courante ou s'il y a d'autres préoccupations théoriques. Je considère surtout cette sortie de pragmatisme.

— Zelazny7

J'ai vu certains pratiquants retirer le terme avec tout bon ou tout mauvais de la sommation, mais je ne recommanderais pas cela parce que vous annuleriez essentiellement une association parfaite. Ajouter une constante (disons c) est une solution intéressante, mais le choix, la constante et la taille du bac affecteront grandement votre IV. Lorsque c s'approche de 0 ou que la taille du bac s'approche de l'infini, le IV s'approche de l'infini. Pour obtenir une IV plus représentative, vous voudrez peut-être envisager de combiner des bacs adjacents qui ont tous les biens ou tous les mauvais.

— dmanuge