J'ai un ensemble de données d'environ 5000 fonctionnalités. Pour ces données, j'ai d'abord utilisé le test du chi carré pour la sélection des fonctionnalités; après cela, j'ai obtenu environ 1500 variables qui ont montré une relation de signification avec la variable de réponse.
Maintenant, je dois ajuster la régression logistique là-dessus. J'utilise le package glmulti pour R (le package glmulti fournit une sélection de sous-ensemble efficace pour vlm) mais il ne peut utiliser que 30 fonctionnalités à la fois, sinon ses performances diminuent car le nombre de lignes de mon ensemble de données est d'environ 20000.
Existe-t-il une autre approche ou technique pour résoudre les problèmes ci-dessus? Si je passe par la méthode ci-dessus, cela prendra trop de temps pour s'adapter au modèle.
sklearn's LogisticRegressionet il résout un problème de 4000 fonctionnalités, 20 000 lignes en environ une minute sur mon ordinateur portable.
