La sélection de modèles LASSO et avant / arrière ont tous deux des avantages et des limites. Aucune recommandation radicale ne peut être faite. La simulation peut toujours être explorée pour résoudre ce problème.
Les deux peuvent être compris dans le sens de la dimensionnalité: se référant à le nombre de paramètres du modèle et le nombre d'observations. Si vous pouviez ajuster des modèles en utilisant la sélection de modèle en arrière , vous n'aviez probablement pas . Dans ce cas, le modèle "le mieux adapté" est celui utilisant tous les paramètres ... lorsqu'il est validé en interne! C'est simplement une question de sur-ajustement.n p ≫ npnp≫n
Le surajustement est corrigé en utilisant la validation croisée d'échantillons fractionnés (CV) pour l'évaluation du modèle. Puisque vous ne l'avez pas décrit, je suppose que vous ne l'avez pas fait. Contrairement à la sélection pas à pas du modèle, LASSO utilise un paramètre de réglage pour pénaliser le nombre de paramètres dans le modèle. Vous pouvez corriger le paramètre de réglage ou utiliser un processus itératif compliqué pour choisir cette valeur. Par défaut , LASSO fait ce dernier. Cela se fait avec CV afin de minimiser le MSE de prédiction. Je ne suis au courant d'aucune mise en œuvre d'une sélection de modèle par étapes qui utilise des techniques aussi sophistiquées, même le BIC en tant que critère souffrirait d'un biais de validation interne. D'après mon compte, cela donne automatiquement à LASSO un effet de levier sur la sélection de modèle pas à pas "prête à l'emploi".
Enfin, la sélection de modèle pas à pas peut avoir différents critères pour inclure / exclure différents régresseurs. Si vous utilisez les valeurs de p pour le test Wald des paramètres du modèle spécifique ou le modèle résultant R ^ 2, vous ne réussirez pas bien, principalement en raison du biais de validation interne (encore une fois, pourrait être corrigé avec CV). Je trouve surprenant que ce soit toujours la façon dont ces modèles ont tendance à être mis en œuvre. L'AIC ou le BIC sont de bien meilleurs critères pour la sélection des modèles.
Il y a un certain nombre de problèmes avec chaque méthode. Les problèmes de sélection de modèle pas à pas sont bien mieux compris et bien pires que ceux de LASSO. Le principal problème que je vois avec votre question est que vous utilisez des outils de sélection de fonctionnalités pour évaluer la prédiction . Ce sont des tâches distinctes. LASSO est préférable pour la sélection de fonctionnalités ou la sélection de modèles clairsemés. La régression de crête peut donner une meilleure prédiction car elle utilise toutes les variables.
La grande force de LASSO est qu'il peut estimer des modèles dans lesquels , comme cela peut être le cas par régression pas à pas vers l'avant (mais pas vers l'arrière). Dans les deux cas, ces modèles ne peuvent être efficaces pour la prédiction que s'il existe une poignée de prédicteurs très puissants. Si un résultat est mieux prédit par de nombreux prédicteurs faibles, alors la régression de crête ou l'ensachage / renforcement surclassera à la fois la régression pas à pas vers l'avant et LASSO de loin. LASSO est beaucoup plus rapide que la régression pas à pas en avant.p≫n
Il y a évidemment beaucoup de chevauchement entre la sélection des fonctionnalités et la prédiction, mais je ne vous dis jamais à quel point une clé sert de marteau. En général, pour la prédiction avec un nombre clairsemé de coefficients de modèle et , je préférerais LASSO à la sélection de modèle pas à pas vers l'avant.p≫n