Fonctionnalités de classement dans la régression logistique

J'ai utilisé la régression logistique. J'ai six fonctionnalités, je veux connaître les fonctionnalités importantes de ce classificateur qui influencent le résultat plus que d'autres fonctionnalités. J'ai utilisé Information Gain mais il semble que cela ne dépende pas du classificateur utilisé. Existe-t-il une méthode pour classer les entités en fonction de leur importance en fonction d'un classificateur spécifique (comme la régression logistique)? Toute aide serait très appréciée.

— Fille bleue
source

La régression logistique n'est pas un classifieur. Veuillez réécrire votre question pour indiquer que la régression logistique est un modèle d'estimation de probabilité directe.

— Frank Harrell

Mis à part le point soulevé par FrankHarrell, avez-vous examiné les valeurs de vos coefficients estimés? Ce n'est certainement pas la meilleure façon de classer les fonctionnalités, mais cela peut vous donner un point de départ.

p

$p$

— usεr11852

Bien sûr, la régression logistique consiste à estimer les probabilités et non à classer explicitement les choses, mais qui s'en soucie? Le but est souvent de décider quelle classe est la plus probable, et il n'y a rien de mal à l'appeler un classificateur si c'est pour cela que vous l'utilisez.

— dsaxton

Réponses:

Je pense que la réponse que vous cherchez pourrait être l' algorithme de Boruta . Il s'agit d'une méthode d'encapsulation qui mesure directement l'importance des entités dans un sens "toute pertinence" et est implémentée dans un package R , qui produit de jolis tracés tels que où l'importance d'une entité est sur l'axe des y et est comparée à un null tracé en bleu ici. Ce billet de blog décrit l'approche et je vous recommande de le lire comme une introduction très claire.

— babelproofreader
source

p >> n

$p >> n$

@ usεr11852 Non, je ne le fais pas. Je viens juste de le découvrir moi-même la semaine dernière.

— babelproofreader

Hmmm ... D'accord, Boruta semble très prometteur, mais je suis toujours sceptique quant aux nouveaux algorithmes géniaux jusqu'à ce que je les considère comme faisant partie d'une étude plus approfondie et que je vois les cas où ils ne parviennent pas à exceller ( pas de théorème du déjeuner gratuit ).

— usεr11852

Idée intéressante mais non liée à la régression logistique.

— Frank Harrell

"Boruta est une méthode de sélection des fonctionnalités, pas une méthode de classement des fonctionnalités" Voir la FAQ sur la page d'accueil du package

— regularfish

$R^2$

Une liste des approches populaires pour classer l'importance des caractéristiques dans les modèles de régression logistique est la suivante:

$R^2$
Adéquation: la proportion du log-vraisemblance du modèle complet qui peut être expliquée individuellement par chaque prédicteur
Concordance: indique la capacité d'un modèle à différencier les variables de réponse positive et négative. Un modèle distinct est construit pour chaque prédicteur et le score d'importance est la probabilité prédite de vrais positifs sur la base de ce seul prédicteur.
Valeur d'information: les valeurs d'information quantifient la quantité d'informations sur le résultat obtenu à partir d'un prédicteur. Il est basé sur une analyse de chaque prédicteur tour à tour, sans tenir compte des autres prédicteurs.

Références:

— Sandeep S. Sandhu
source

min_{w, b} \sum_{i = 1}^{n} \log (1 + \exp (- y_{i} f_{w, b} (x_{i}))) + λ {‖ w ‖}^{2}

$\mathop {\min }\limits_{{\bf{w}},b} \sum\limits_{i = 1}^n {\log \left( {1 + \exp \left( { - {y_i}{f_{{\bf{w}},b}}({x_i})} \right)} \right) + \lambda {{\left\| {\bf{w}} \right\|}^2}}$

x_{i}

$x_i$

y_{i}

$y_i$

i

$i$

w

$\mathbf{w}$

b

$b$

f_{w, b} (x_{i})

${{f_{w,b}}({x_i})}$

En supposant que tous vos sont normalisés, par exemple en divisant par l'amplitude de , il est assez facile de voir quelles variables sont plus importantes: celles qui sont plus grandes que les autres ou (du côté négatif ) plus petit des autres. Ils influencent le plus la perte. $\mathbf{x}$ $\mathbf{x}$

Si vous souhaitez trouver les variables qui sont vraiment importantes et que cela ne vous dérange pas d'en supprimer quelques-unes, vous pouvez régulariser votre fonction de perte: $\ell_1$

min_{w, b} \sum_{i = 1}^{n} \log (1 + \exp (- y_{i} f_{w, b} (x_{i}))) + λ | w |

$\mathop {\min }\limits_{{\bf{w}},b} \sum\limits_{i = 1}^n {\log \left( {1 + \exp \left( { - {y_i}{f_{{\bf{w}},b}}({x_i})} \right)} \right) + \lambda \left| {\bf{w}} \right|}$

Les dérivés ou le régularisateur sont assez simples, donc je ne les mentionnerai pas ici. L'utilisation de cette forme de régularisation et d'un approprié les éléments les moins importants de à devenir nul et les autres non. $\lambda$ $\mathbf{w}$

J'espère que ça aide. Demandez si vous avez d'autres questions.

— pAt84
source

LR n'est pas un schéma de classification. Toute utilisation de la classification intervient comme une étape de post-estimation après avoir défini la fonction d'utilité / coût. De plus, le PO n'a pas posé de questions sur l'estimation du maximum de vraisemblance pénalisé. Pour fournir des preuves de l'importance relative des variables dans la régression, il est très facile d'utiliser le bootstrap pour obtenir des limites de confiance pour les rangs des informations prédictives ajoutées fournies par chaque prédicteur. Un exemple apparaît dans le chapitre 4 des stratégies de modélisation de régression dont les notes en ligne et le code R sont disponibles sur biostat.mc.vanderbilt.edu/RmS#Materials

— Frank Harrell

Professeur Harrell, s'il vous plaît. Il est évident que nous l'abordons de deux côtés différents. Vous du statistique et moi du machine learning. Je vous respecte, vos recherches et votre carrière mais vous êtes très libre de formuler votre propre réponse et de laisser le PO décider, laquelle il considère comme la meilleure réponse à sa question. Je suis désireux d'apprendre, alors enseignez-moi votre approche, mais ne me faites pas acheter votre livre.

— pAt84

Je noterai simplement que la régression logistique a été développée par le statisticien DR Cox en 1958, des décennies avant que l'apprentissage automatique n'existe. Il est également important de noter que la "fonction de perte" (mieux appelée une fonction objective peut-être?) Que vous avez formulée n'a aucun rapport avec la classification. Et qu'est-ce qui vous a laissé entendre que mes notes détaillées et fichiers audio disponibles en ligne avec toutes les informations auxquelles j'ai fait référence coûtent quelque chose?

— Frank Harrell

J'ai voté pour les deux premiers commentaires, car les deux soulèvent des points valides. Des commentaires ultérieurs un peu comme de petites querelles avec moi ...

— usεr11852

PS En essayant de dire plus clairement cela, l'optimisation de la prédiction / estimation conduit à des décisions optimales car la fonction d'utilité est appliquée dans une deuxième étape et peut être indépendante des prédicteurs. L'optimisation de la prédiction / estimation n'optimise pas la classification et vice-versa. L'optimisation de la classification revient à utiliser une fonction d'utilité étrange qui est adaptée au jeu de données à portée de main et peut ne pas s'appliquer aux nouveaux jeux de données. Les gens qui veulent vraiment optimiser la classification (non recommandé) peuvent utiliser une méthode qui contourne complètement l'estimation / la prévision.

— Frank Harrell