Je suis probablement confronté à un problème qui a probablement été résolu une centaine de fois auparavant, mais je ne sais pas où trouver la réponse.
Lorsque j'utilise la régression logistique, étant donné de nombreuses fonctionnalités et que j'essaie de prédire une valeur binaire catégorielle , je suis intéressé par la sélection d'un sous-ensemble des fonctionnalités qui prédit bien .
Existe-t-il une procédure similaire au lasso qui peut être utilisée? (Je n'ai vu que le lasso utilisé pour la régression linéaire.)
L'examen des coefficients du modèle ajusté indique-t-il l'importance des différentes caractéristiques?
Modifier - Clarifications après avoir vu certaines des réponses:
Lorsque je me réfère à l'amplitude des coefficients ajustés, je veux dire ceux qui sont ajustés à des caractéristiques normalisées (moyenne 0 et variance 1). Sinon, comme l'a souligné @probabilityislogic, 1000x semblerait moins important que x.
Je ne souhaite pas simplement trouver le meilleur sous-ensemble k (comme le proposait @Davide), mais plutôt peser l'importance des différentes fonctionnalités les unes par rapport aux autres. Par exemple, une fonctionnalité peut être "âge" et l'autre fonctionnalité "âge> 30". Leur importance supplémentaire peut être faible, mais les deux peuvent être importants.