Intuitivement parlant, le lasso de groupe peut être préféré au lasso car il nous permet d'incorporer (un certain type de) des informations supplémentaires dans notre estimation du vrai coefficient . En tant que scénario extrême, compte tenu des éléments suivants:β∗
y∼N(Xβ∗,σ2I)S={j:β∗j≠0}β∗
β^=argminβ∥y−Xβ∥22+λ(|S|1/2∥βS∥2+(p−|S|)1/2∥βSC∥2),
λmaxλβ^=0λ passe de à (pour certains petits ), exactement un groupe prendra en charge , qui est généralement considéré comme une estimation pour . En raison de notre regroupement, avec une forte probabilité, le groupe sélectionné sera , et nous aurons fait un travail parfait.
λmaxλmax−ϵϵ>0β^SS
En pratique, nous ne sélectionnons pas aussi bien les groupes. Cependant, les groupes, bien qu'ils soient plus fins que le scénario extrême ci-dessus, nous aideront toujours: le choix serait toujours fait entre un groupe de vraies covariables et un groupe de fausses covariables. Nous empruntons toujours de la force.
Ceci est formalisé ici . Ils montrent, dans certaines conditions, que la borne supérieure de l'erreur de prédiction du lasso de groupe est inférieure à une borne inférieure de l'erreur de prédiction du lasso simple. Autrement dit, ils ont prouvé que le regroupement rend notre estimation meilleure.
Pour votre deuxième question: la pénalité (simple) du lasso est linéaire par morceaux, ce qui donne lieu au chemin de solution linéaire par morceaux. Intuitivement, dans le cas du lasso de groupe, la pénalité n'est plus linéaire par morceaux, nous n'avons donc plus cette propriété. Une grande référence sur la linéarité par morceaux des chemins de solution est ici . Voir leur proposition 1. Soit et . Ils montrent que le chemin de solution du groupe lasso est linéaire si et seulement si est constant par morceaux. Bien sûr, ce n'est pas puisque notre pénalité a une courbure globale.L(β)=∥y−Xβ∥22J(β)=∑g∈G|g|1/2∥βg∥2
(∇2L(β^)+λ∇2J(β^))−1∇J(β^)
J