Avantages de faire du «double lasso» ou de faire du lasso deux fois?

26

J'ai entendu une fois une méthode d'utilisation du lasso deux fois (comme un double-lasso) où vous effectuez le lasso sur l'ensemble de variables d'origine, par exemple S1, obtenez un ensemble clairsemé appelé S2, puis exécutez à nouveau le lasso sur l'ensemble S2 pour obtenir l'ensemble S3 . Y a-t-il un terme méthodologique pour cela? Aussi, quels sont les avantages de faire deux fois le lasso?

— Bstat
source

23

Oui, la procédure à laquelle vous demandez (ou pensez) s'appelle le lasso détendu .

L'idée générale est que dans le processus d'exécution du LASSO pour la première fois, vous incluez probablement des "variables de bruit"; effectuer le LASSO sur un deuxième ensemble de variables (après le premier LASSO) donne moins de concurrence entre les variables qui sont de «vrais concurrents» pour faire partie du modèle et pas seulement les variables de «bruit». Techniquement, l'objectif de cette méthode est de surmonter la convergence lente (connue) du LASSO dans des ensembles de données avec un grand nombre de variables.

Vous pouvez en lire plus à ce sujet dans l'article original de Meinshausen (2007) .

Je recommande également la section 3.8.5 sur les éléments de l'apprentissage statistique (Hastie, Tibshirani & Friedman, 2008) , qui donne un aperçu d'autres méthodes très intéressantes pour effectuer la sélection des variables à l'aide du LASSO.

— Néstor
source

Merci! Je vais certainement regarder l'article de Meinshausen.

— Bstat

19

L'idée est de séparer les deux effets du lasso

$\beta$
$\beta$

$p >\!\!> n$

L'idée du lasso détendu est que vous séparez les deux effets: vous utilisez une pénalité élevée lors de la première passe pour sélectionner les variables; et une pénalité plus petite sur la deuxième passe pour les réduire d'un montant plus petit.

Le papier original (lié par Néstor) donne plus de détails.

— luispedro
source