J'ai un ensemble de données d'environ 5000 fonctionnalités. Pour ces données, j'ai d'abord utilisé le test du chi carré pour la sélection des fonctionnalités; après cela, j'ai obtenu environ 1500 variables qui ont montré une relation de signification avec la variable de réponse.
Maintenant, je dois ajuster la régression logistique là-dessus. J'utilise le package glmulti pour R (le package glmulti fournit une sélection de sous-ensemble efficace pour vlm) mais il ne peut utiliser que 30 fonctionnalités à la fois, sinon ses performances diminuent car le nombre de lignes de mon ensemble de données est d'environ 20000.
Existe-t-il une autre approche ou technique pour résoudre les problèmes ci-dessus? Si je passe par la méthode ci-dessus, cela prendra trop de temps pour s'adapter au modèle.
sklearn
's LogisticRegression
et il résout un problème de 4000 fonctionnalités, 20 000 lignes en environ une minute sur mon ordinateur portable.