Pourquoi la meilleure sélection de sous-ensembles n'est-elle pas favorisée par rapport au lasso?

Je lis sur la meilleure sélection de sous-ensembles dans le livre Elements of statistics learning. Si j'ai 3 prédicteurs , je crée sous-ensembles: $x_1,x_2,x_3$ $2^3=8$

Sous-ensemble sans prédicteurs
sous-ensemble avec prédicteur $x_1$
sous-ensemble avec prédicteur $x_2$
sous-ensemble avec prédicteur $x_3$
sous-ensemble avec prédicteurs $x_1,x_2$
sous-ensemble avec prédicteurs $x_1,x_3$
sous-ensemble avec prédicteurs $x_2,x_3$
sous-ensemble avec prédicteurs $x_1,x_2,x_3$

Ensuite, je teste tous ces modèles sur les données de test pour choisir le meilleur.

Maintenant, ma question est la suivante: pourquoi la meilleure sélection de sous-ensembles n'est-elle pas favorisée par rapport, par exemple, au lasso?

Si je compare les fonctions de seuillage du meilleur sous-ensemble et du lasso, je vois que le meilleur sous-ensemble met certains des coefficients à zéro, comme le lasso. Mais, les autres coefficients (non nuls) auront toujours les valeurs ols, ils seront non biaisés. Alors qu'au lasso, certains des coefficients seront nuls et les autres (non nuls) auront un certain biais. La figure ci-dessous le montre mieux:

Sur l'image, la partie de la ligne rouge dans le meilleur cas de sous-ensemble est posée sur la ligne grise. L'autre partie se situe dans l'axe des x où certains des coefficients sont nuls. La ligne grise définit les solutions non biaisées. Dans le lasso, un certain biais est introduit par . De cette figure, je vois que le meilleur sous-ensemble est meilleur que le lasso! Quels sont les inconvénients de l'utilisation du meilleur sous-ensemble? $\lambda$

— Ville
source

.. et à quoi ressemblent les courbes lorsque le caractère aléatoire des données vous amène à sélectionner l'un des nombreux sous-ensembles incorrects et que les estimations de coefficient associées sont loin d'être nulles par rapport à leurs erreurs standard?

— jbowman

@jbowman Je ne le comprends pas très clairement, pourquoi le caractère aléatoire des données m'obligerait-il à sélectionner la mauvaise? Si j'utilisais la validation croisée pour sélectionner le meilleur sous-ensemble, j'aurais alors moins de chances de sélectionner le mauvais sous-ensemble.

— Ville

Vous semblez assimiler «moins de biais» à «mieux». Qu'est-ce qui vous amène à accorder une si grande valeur à l'impartialité?

— Matthew Drury

Réponses:

Dans la sélection de sous-ensemble, les paramètres non nuls ne seront non biaisés que si vous avez choisi un sur-ensemble du modèle correct, c'est-à-dire si vous avez supprimé uniquement les prédicteurs dont les valeurs de coefficient réelles sont nulles. Si votre procédure de sélection vous a conduit à exclure un prédicteur avec un vrai coefficient non nul, toutes les estimations de coefficient seront biaisées. Cela va à l'encontre de votre argument si vous convenez que la sélection n'est généralement pas parfaite.

Ainsi, pour être «sûr» d'une estimation de modèle non biaisée, vous devriez vous tromper en incluant davantage, voire tous les prédicteurs potentiellement pertinents. Autrement dit, vous ne devez pas sélectionner du tout.

pourquoi est-ce une mauvaise idee? En raison du compromis biais-variance. Oui, votre grand modèle sera non biaisé, mais il aura une grande variance, et la variance dominera l'erreur de prédiction (ou autre).

Par conséquent, il est préférable d'accepter que les estimations des paramètres seront biaisées mais ont une variance plus faible (de régularisation), plutôt que de l' espoir que notre sélection de sous - ensemble a seulement enlevé vrai zéro paramètres que nous avons un modèle sans biais plus grande variance.

Étant donné que vous écrivez que vous évaluez les deux approches à l'aide de la validation croisée, cela atténue certaines des préoccupations ci-dessus. Il reste un problème pour le meilleur sous-ensemble: il contraint certains paramètres à être exactement zéro et laisse les autres flotter librement. Il y a donc une discontinuité dans l'estimation, qui n'existe pas si l'on ajuste le lasso au-delà d'un point où un prédicteur est inclus ou exclu. Supposons que la validation croisée génère un "optimal" proche de , de sorte que nous ne savons pas vraiment si p doit être inclus ou non. Dans ce cas, je dirais qu'il est plus logique de limiter l'estimation des paramètres $\lambda$ $\lambda_0$ $p$ $\lambda$ $\lambda_0$ $\hat{\beta}_p$ via le lasso à un petit ( en absolu) valeur, plutôt que d' exclure soit , ou le laisser flotter , en tant que meilleur sous - ensemble ne. $\hat{\beta}_p=0$ $\hat{\beta}_p=\hat{\beta}_p^{\text{OLS}}$

Cela peut être utile: pourquoi le retrait fonctionne-t-il?

— Stephan Kolassa
source

Hmm. Je ne pense pas que cela explique pourquoi le meilleur sous-ensemble est pire que le lasso (qui est la principale question ici).

— amibe dit Réintégrer Monica

@amoeba: aimeriez-vous élaborer?

— Stephan Kolassa

Eh bien, j'ai compris que la question demandait pourquoi le lasso est préféré au meilleur sous-ensemble. Imaginez que nous mettions les deux dans une boucle de validation croisée, puis que nous réglions le paramètre lasso ou que nous trouvions le meilleur sous-ensemble. Le lasso est généralement recommandé. J'ai compris que la question demandait pourquoi? (voir par exemple le titre du Q) et je ne suis pas sûr que votre réponse réponde réellement à cela. Ou ai-je mal compris votre réponse?

— amibe dit Réintégrer Monica

λ

$\lambda$

λ_{0}

$\lambda_0$

p

$p$

p

$p$

λ \approx λ_{0}

$\lambda\approx\lambda_0$

{\hat{β}}_{p}

$\hat{\beta}_p$

Je suis d'accord pour dire que cette réponse ne répond pas vraiment à la question - j'ai ajouté mon point de vue ci-dessous ...

— Tom Wenseleers

En principe, si le meilleur sous-ensemble peut être trouvé, il est en effet meilleur que le LASSO, en termes de (1) sélection des variables qui contribuent réellement à l'ajustement, (2) non sélection des variables qui ne contribuent pas à l'ajustement, (3) la précision des prévisions et (4) la production d'estimations essentiellement non biaisées pour les variables sélectionnées. Un article récent qui a plaidé pour la qualité supérieure du meilleur sous-ensemble par rapport à LASSO est celui de Bertsimas et al (2016) «Meilleure sélection de sous-ensemble via une lentille d'optimisation moderne» . Un autre exemple plus ancien donnant un exemple concret (sur la déconvolution des trains à crampons) où le meilleur sous-ensemble était meilleur que LASSO ou la crête est celui de Rooi et Eilers (2011).

$L_0$ $L_1$ $L_0$ $L_q$ une régression pénalisée standard avec q proche de 0 serait en principe plus proche de la meilleure sélection de sous-ensemble que LASSO, mais ce n'est plus un problème d'optimisation convexe, et donc assez difficile à ajuster ).

Pour réduire le biais du LASSO, on peut utiliser des approches dérivées à plusieurs étapes, telles que le LASSO adaptatif (où les coefficients sont pénalisés différentiellement sur la base d'une estimation préalable à partir d'un minimum de carrés ou d'un ajustement de régression de crête) ou LASSO détendu (une solution simple étant de faire un ajustement des moindres carrés des variables sélectionnées par le LASSO). Par rapport au meilleur sous-ensemble, LASSO a cependant tendance à sélectionner un peu trop de variables. La meilleure sélection de sous-ensembles est meilleure, mais plus difficile à ajuster.

$L_0$ fournit une comparaison approfondie du meilleur sous-ensemble, LASSO et certaines variantes de LASSO comme le LASSO détendu, et ils affirment que le LASSO détendu était celui qui a produit la plus grande précision de prédiction du modèle dans le plus large éventail de circonstances, c'est-à-dire qu'ils sont arrivés à une conclusion différente de celle Bertsimas. Mais la conclusion sur ce qui est le mieux dépend beaucoup de ce que vous considérez le mieux (par exemple, la précision de prédiction la plus élevée ou la meilleure pour sélectionner les variables pertinentes et ne pas inclure celles qui ne sont pas pertinentes; la régression de crête, par exemple, sélectionne généralement beaucoup trop de variables, mais la précision de la prédiction pour les cas avec les variables très colinéaires peuvent néanmoins être vraiment bonnes).

Pour un très petit problème avec 3 variables comme vous le décrivez, il est clair que la meilleure sélection de sous-ensemble est l'option préférée.

— Tom Wenseleers
source

Que signifie "mieux" dans l'expression "c'est mieux que le lasso"?

— Matthew Drury

k

$k$

λ

$\lambda$

k

$k$

k

$k$

k

$k$

Modifié un peu ma réponse pour donner plus de détails ...

— Tom Wenseleers

Je pense qu'aucune des réponses ne résout le problème de la stabilité. Comme la régression pas à pas et tous les sous-ensembles possibles, lassoest notoirement instable. En d'autres termes, si vous deviez amorcer l'ensemble du processus, vous trouverez trop d'arbitraire dans la liste des fonctionnalités sélectionnées.

— Frank Harrell

Oui, les variables sélectionnées par LASSO peuvent être instables, et c'est encore plus le cas pour la meilleure régression de sous-ensemble - la régression nette élastique est un peu meilleure à cet égard - qui a tendance à inclure beaucoup trop de variables alors, mais sélectionnée de manière plus de manière stable, et peut donner une meilleure précision de prédiction sous une colinéarité élevée. Mais cela dépend beaucoup du critère le plus important pour votre application - la précision des prédictions, le taux de faux positifs d'inclusion de variables non pertinentes ou le taux de faux négatifs de non inclusion de variables hautement pertinentes ...

— Tom Wenseleers