Il s'agit d'une question concernant une pratique ou une méthode suivie par certains de mes collègues. En faisant un modèle de régression logistique, j'ai vu des gens remplacer des variables catégorielles (ou des variables continues qui sont regroupées) par leur poids de preuve respectif (WoE). Ceci est censé être fait pour établir une relation monotone entre le régresseur et la variable dépendante. Pour autant que je sache, une fois le modèle créé, les variables de l'équation ne sont PAS les variables de l'ensemble de données. Au contraire, les variables de l'équation sont maintenant en quelque sorte l' importance ou le poids des variables dans la ségrégation de la variable dépendante !
Ma question est: comment interpréter maintenant le modèle ou les coefficients du modèle? Par exemple pour l'équation suivante:
on peut dire que est l' augmentation relative du rapport de impair pour 1 unité d'augmentation de la variable x 1 .
Mais si la variable est remplacée par son WoE, alors l'interprétation sera changée en: augmentation relative du rapport de cote pour 1 unité d'augmentation de L'IMPORTANCE / POIDS de la variable
J'ai vu cette pratique sur Internet, mais nulle part je n'ai trouvé de réponse à cette question. Ce lien de cette communauté elle - même est lié à une requête quelque peu similaire où quelqu'un a écrit:
WoE affiche une relation linéaire avec le logarithme naturel du rapport de cotes qui est la variable dépendante de la régression logistique. Par conséquent, la question des erreurs de spécification du modèle ne se pose pas dans la régression logistique lorsque nous utilisons WoE au lieu des valeurs réelles de la variable.
Mais je ne comprends toujours pas l'explication. Aidez-moi à comprendre ce qui me manque.