Classement des variables catégorielles dans la régression logistique


8

Je fais des recherches en utilisant la régression logistique. 10 variables influencent la variable dépendante. L'un des éléments susmentionnés est catégorique (par exemple, livraison express, livraison standard, etc.). Maintenant, je veux classer ces catégories en fonction de la «force» de leur effet sur la variable dépendante.

Ils sont tous significatifs (petite valeur de p), mais je pense que je ne peux pas simplement utiliser la valeur des cotes à des fins de classement. Je dois en quelque sorte déterminer si chaque catégorie est également significativement différente des autres catégories. Est-ce correct?

J'ai lu la possibilité de centrer la variable. Est-ce vraiment une option? Je ne veux pas que le reste de mon modèle soit affecté.


Sortie Stata afin de soutenir mon commentaire sur le post de @ subra:

Average marginal effects                          Number of obs   =     124773
Model VCE    : OIM

Expression   : Pr(return), predict()
dy/dx w.r.t. : ExpDel

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
ExpDel |   .1054605   .0147972     7.36   0.000     .0798584    .1378626
------------------------------------------------------------------------------

Réponses:


1

Étant donné que vous souhaitez classer les catégories, vous souhaiterez peut-être recoder les variables catégorielles en un certain nombre de variables binaires distinctes.

Exemple: Créez une variable binaire pour la livraison express - qui prendrait la valeur 1 pour les cas de livraison express et 0 sinon. De même, une variable binaire pour la livraison standard.

Pour chacune de ces variables binaires recodées, vous pouvez calculer les effets marginaux comme indiqué ci-dessous:

Formule

Permettez-moi d'expliquer un peu l'équation ci-dessus: disons que d est la variable binaire recodée pour la livraison express

Formule est la probabilité d'événement évaluée à la moyenne lorsque d = 1

Formule est la probabilité d'événement évaluée à la moyenne lorsque d = 0

Une fois que vous avez calculé les effets marginaux pour toutes les catégories (variables binaires recodées), vous pouvez les classer.


Merci beaucoup pour votre message, subra. J'ai essayé de m'en tenir à vos instructions et j'ai accompli la commande ". Margins, dydx (ExpDel)" in stata. Vous trouverez la sortie dans mon message d'origine. Dois-je exécuter cette commande sur toutes mes variables catégorielles (et maintenant binaires) que je voudrais classer, puis il suffit de comparer la valeur dy / dx? Plus il y a d'influence sur ma variable dépendante? Merci beaucoup!
Lukas

@ Lukas: Oui, vous avez raison. Dans Stata, pour les données discrètes, les «marges» calculent en fait l'effet d'un changement discret de la co-variée. Par conséquent, il suffit de comparer le dy / dx (à partir des marges) pour toutes les catégories (désormais binaires). Plus la valeur est élevée, plus il y a d'influence.
subra

@ subra: Merci d'avoir clarifié. La procédure mentionnée ci-dessus conduit au même classement que si je classais simplement les coefficients logit respectifs. Je ne sais toujours pas pourquoi je peux me référer aux effets marginaux à des fins de classement et non aux coefficients logit. Avez-vous une source que vous pourriez recommander pour d'autres lectures? De plus, je ne sais pas pourquoi utiliser la commande stata mentionnée ci-dessus et ne pas ajouter, par exemple, "atmeans" afin d'utiliser les moyennes des autres variables à des fins de comparaison. Merci beaucoup.
Lukas

@ Lucas: Oui, tu es rite. Si vous souhaitez uniquement classer les prédicteurs, les coefficients logit devraient suffire. Je ne suis pas clair avec votre deuxième partie de la question. si vous demandez pourquoi nous devons évaluer les effets marginaux, veuillez consulter le post suivant: stats.stackexchange.com/questions/167811/…
subra

-2

Vous pouvez ajuster le modèle de régression logistique en utilisant une seule variable à la fois et examiner le R2 ajusté.

Celui qui explique la majeure partie de la variance devrait avoir plus d'impact sur le modèle ...

Je ne fais que deviner, pas sûr que ce soit une solution rigoureuse ...


4
Non, cela ne fournirait que des mesures d'association marginales.
Frank Harrell

-2

C'est une question courante avec une multitude de réponses. Le plus simple est d'utiliser des fonctionnalités standardisées; la valeur absolue des coefficients qui reviennent peut alors être interprétée de manière approximative comme «plus élevée» = «plus d'influence» sur le log (cotes). Pour la plupart, l'utilisation de scores standard ne devrait pas affecter vos résultats globaux (la courbe ROC devrait être la même; la matrice de confusion devrait être la même en supposant que vous choisissez un seuil de décision comparable). Je calcule généralement la régression dans les deux sens; une fois en utilisant des scores bruts (pour obtenir l'équation de prédiction que j'utiliserai) et une deuxième fois en utilisant des scores standardisés pour voir lesquels sont les plus grands.

En ce qui concerne les prédicteurs catégoriels, je suppose (mais je n'ai pas vérifié) qu'il en va de même lors de l'utilisation de prédicteurs normalisés.

Si vous ne l'avez pas déjà fait, vous devriez également envisager d'utiliser la régularisation: Lasso / crête / filet élastique. Cela aidera les fonctionnalités faibles, non pertinentes ou redondantes à disparaître, vous laissant avec un modèle plus parcimonieux.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.