J'ai un ensemble de données avec environ 2 000 variables binaires / 200 000 lignes et j'essaie de prédire une seule variable dépendante binaire. Mon objectif principal à ce stade n'est pas d'obtenir l'exactitude des prévisions, mais plutôt d'identifier lesquelles de ces variables sont des prédicteurs importants. J'aimerais ramener le nombre de variables dans mon modèle final à environ 100.
Existe-t-il un moyen relativement rapide d'obtenir les variables les plus importantes? randomForest semble prendre beaucoup de temps.
Je n'ai pas à utiliser les 200 000 observations, donc l'échantillonnage est une option sur la table.