Dans ma classe d'apprentissage automatique, nous avons appris comment la régression LASSO est très efficace pour effectuer la sélection de fonctionnalités, car elle utilise la régularisation .
Ma question: les gens utilisent-ils normalement le modèle LASSO uniquement pour faire la sélection des fonctionnalités (puis procèdent-ils au vidage de ces fonctionnalités dans un modèle d'apprentissage automatique différent), ou utilisent-ils généralement LASSO pour effectuer à la fois la sélection des fonctionnalités et la régression réelle?
Par exemple, supposons que vous souhaitiez effectuer une régression de crête, mais vous pensez que bon nombre de vos fonctionnalités ne sont pas très bonnes. Serait-il sage d'exécuter LASSO, de ne prendre que les fonctionnalités qui ne sont pas presque mises à zéro par l'algorithme, puis d'utiliser uniquement celles qui déposent vos données dans un modèle de régression de crête? De cette façon, vous bénéficiez de la régularisation pour effectuer la sélection des fonctionnalités, mais également de la régularisation pour réduire le sur-ajustement. (Je sais que cela revient essentiellement à la régression du filet élastique, mais il semble que vous n'ayez pas besoin d'avoir à la fois les termes et dans la fonction d'objectif de régression finale.)
Mis à part la régression, est-ce une stratégie judicieuse lors de l'exécution de tâches de classification (à l'aide de SVM, de réseaux de neurones, de forêts aléatoires, etc.)?