Pourquoi utiliser le lasso de groupe au lieu du lasso?

13

J'ai lu que le lasso de groupe est utilisé pour la sélection des variables et la rareté dans un groupe de variables. Je veux connaître l'intuition derrière cette affirmation.

Pourquoi le lasso de groupe est-il préféré au lasso?
Pourquoi le chemin de la solution de lasso de groupe n'est-il pas linéaire par morceaux?

— Vengeance
source

1

Ce que je comprends de Yuan et Lin (2006), c'est que le lasso est conçu pour sélectionner des variables individuelles et non une sélection factorielle. Le lasso aborde donc le problème de l'ANOVA où le but est de sélectionner les principaux effets et interactions importants pour une prédiction précise qui revient à sélectionner des groupes de variables. L'autre exemple est celui d'un modèle additif avec polynôme où chaque composante est exprimée comme une combinaison linéaire des fonctions de base des variables mesurées originales

— Vendetta

11

Intuitivement parlant, le lasso de groupe peut être préféré au lasso car il nous permet d'incorporer (un certain type de) des informations supplémentaires dans notre estimation du vrai coefficient . En tant que scénario extrême, compte tenu des éléments suivants: $\beta^*$

$y \sim \mathcal{N} (X \beta^*, \sigma^2 I )$ $S = \{j : \beta^*_j \neq 0 \}$ $\beta^*$

\hat{β} = \arg min_{β} ‖ y - X β ‖_{2}^{2} + λ (| S |^{1 / 2} ‖ β_{S} ‖_{2} + (p - | S |)^{1 / 2} ‖ β_{S^{C}} ‖_{2}),

$\hat{\beta} = \arg\min_{\beta} \|y - X \beta\|_2^2 + \lambda \left( |S|^{1/2} \|\beta_S\|_2 + (p-|S|)^{1/2} \|\beta_{S^C}\|_2 \right),$

λ_{m a x}

$\lambda_{max}$

λ

$\lambda$

\hat{β} = 0

$\hat{\beta} = 0$

λ

$\lambda$ passe de à (pour certains petits ), exactement un groupe prendra en charge , qui est généralement considéré comme une estimation pour . En raison de notre regroupement, avec une forte probabilité, le groupe sélectionné sera , et nous aurons fait un travail parfait.

λ_{m a x}

$\lambda_{max}$

λ_{m a x} - ϵ

$\lambda_{max} - \epsilon$

ϵ > 0

$\epsilon > 0$

\hat{β}

$\hat{\beta}$

S

$S$

S

$S$

En pratique, nous ne sélectionnons pas aussi bien les groupes. Cependant, les groupes, bien qu'ils soient plus fins que le scénario extrême ci-dessus, nous aideront toujours: le choix serait toujours fait entre un groupe de vraies covariables et un groupe de fausses covariables. Nous empruntons toujours de la force.

Ceci est formalisé ici . Ils montrent, dans certaines conditions, que la borne supérieure de l'erreur de prédiction du lasso de groupe est inférieure à une borne inférieure de l'erreur de prédiction du lasso simple. Autrement dit, ils ont prouvé que le regroupement rend notre estimation meilleure.

Pour votre deuxième question: la pénalité (simple) du lasso est linéaire par morceaux, ce qui donne lieu au chemin de solution linéaire par morceaux. Intuitivement, dans le cas du lasso de groupe, la pénalité n'est plus linéaire par morceaux, nous n'avons donc plus cette propriété. Une grande référence sur la linéarité par morceaux des chemins de solution est ici . Voir leur proposition 1. Soit et . Ils montrent que le chemin de solution du groupe lasso est linéaire si et seulement si est constant par morceaux. Bien sûr, ce n'est pas puisque notre pénalité a une courbure globale. $L(\beta) = \|y - X \beta\|_2^2$ $J(\beta) = \sum_{g \in G} |g|^{1/2} \|\beta_g\|_2$

{(\nabla^{2} L (\hat{β}) + λ \nabla^{2} J (\hat{β}))}^{- 1} \nabla J (\hat{β})

$\left( \nabla^2L(\hat{\beta}) + \lambda \nabla^2 J(\hat{\beta}) \right)^{-1} \nabla J(\hat{\beta})$

J

$J$

— user795305
source

2

Cela a beaucoup de sens maintenant. Merci beaucoup pour votre réponse.

— Vendetta

4

La réponse de Ben est le résultat le plus général. Mais la réponse intuitive à l'OP est motivée par le cas des prédicteurs catégoriels, qui sont généralement codés comme de multiples variables muettes: une pour chaque catégorie. Il est logique dans de nombreuses analyses de considérer ces variables fictives (représentant un prédicteur catégorique) ensemble plutôt que séparément.

Si vous avez une variable catégorielle avec, disons, cinq niveaux, un lasso droit peut laisser deux entrées et trois sorties. Comment gérez-vous cela de manière raisonnée? Décidez de voter? Utiliser littéralement les variables fictives au lieu des catégories plus significatives? Comment votre codage factice affecte-t-il vos choix?

Comme ils le disent dans l'introduction du Lasso de groupe pour la régression logistique , il mentionne:

Déjà pour le cas particulier de la régression linéaire où non seulement des prédicteurs (facteurs) continus mais aussi catégoriels sont présents, la solution du lasso n'est pas satisfaisante car elle ne sélectionne que des variables muettes individuelles au lieu de facteurs entiers. De plus, la solution du lasso dépend de la façon dont les variables fictives sont codées. Le choix de contrastes différents pour un prédicteur catégorique produira différentes solutions en général.

Comme le souligne Ben, il existe également des liens plus subtils entre les prédicteurs qui pourraient indiquer qu'ils devraient être entrés ou sortis ensemble. Mais les variables catégorielles sont l'enfant de l'affiche pour le lasso de groupe.

— Wayne
source

@Ben: Hmmm ... Je ne comprends pas vraiment le premier commentaire de l'OP, on dirait que c'est une réponse à un commentaire maintenant supprimé? La question elle-même et son titre - ce que la plupart des téléspectateurs liront - semble être une question générale. Je supprimerai certainement ma réponse si la question et le titre sont remplacés par "Quelles sont les applications non évidentes du lasso groupé au-delà du cas des variables catégorielles?"

— Wayne

D'accord. J'aime votre point sur la façon dont l'utilisation du lasso (simple) sur les facteurs fait que les estimations dépendent du codage des facteurs! Auparavant, je pensais simplement que le lasso de groupe nous donnait une sorte de "mesure clairsemée" au lieu de "paramètre clairsemé" (c'est-à-dire que nous devrions avoir à mesurer le facteur ou non - tous les niveaux devraient être sélectionnés ou aucun.)

— user795305