Pour la régression Lasso supposons que la meilleure solution (erreur de test minimale par exemple) sélectionne k fonctionnalités, de sorte que \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 \ droite) .
Nous savons que est un estimation biaisée de , alors pourquoi prenons-nous toujours comme solution finale, au lieu de la plus 'raisonnable' , où est l'estimation LS du modèle partiel . ( désigne les colonnes de correspondant aux entités sélectionnées).
En bref, pourquoi utilisons-nous le Lasso à la fois pour la sélection d'entités et pour l'estimation de paramètres, au lieu de seulement pour la sélection de variables (et en laissant l'estimation sur les entités sélectionnées à OLS)?
(En outre, qu'est-ce que cela signifie que «Lasso peut sélectionner au plus fonctionnalités»? est la taille de l'échantillon.)