Cela peut être attaqué de différentes manières, y compris par des approches relativement économiques via les conditions de Karush – Kuhn – Tucker .
Ci-dessous, un argument alternatif assez élémentaire.
La solution des moindres carrés pour un dessin orthogonal
Supposons que soit composé de colonnes orthogonales. La solution des moindres carrés est alors
X
β^LS=(XTX)−1XTy=XTy.
Quelques problèmes équivalents
Via la forme lagrangienne, il est évident qu'un problème équivalent à celui considéré dans la question est
minβ12∥y−Xβ∥22+γ∥β∥1.
En élargissant le premier terme, on obtient et depuis ne contient pas des variables d’intérêt, nous pouvons l’écarter et envisager un autre problème équivalent,
12yTy−yTXβ+12βTβyTy
minβ(−yTXβ+12∥β∥2)+γ∥β∥1.
En notant que , le problème précédent peut être réécrit sous la forme
β^LS=XTy
minβ∑i=1p−β^LSiβi+12β2i+γ|βi|.
Notre fonction d'objectif est maintenant une somme d'objectifs, chacun correspondant à une variable distincte , afin qu'ils puissent être résolus individuellement.βi
Le tout est égal à la somme de ses parties
Fixer un certain . Ensuite, nous voulons minimiser
i
Li=−β^LSiβi+12β2i+γ|βi|.
Si , alors nous devons avoir sinon nous pourrions retourner son signe et obtenir une valeur inférieure pour la fonction objectif. De même si , alors nous devons choisir .β^LSi>0βi≥0β^LSi<0βi≤0
Cas 1 : . Depuis ,
différenciant par rapport à et en le fixant à zéro , nous obtenons et ceci n’est réalisable que si le droite n’est pas négatif, donc dans ce cas la solution actuelle est
β^LSi>0βi≥0
Li=−β^LSiβi+12β2i+γβi,
βiβi=β^LSi−γβ^lassoi=(β^LSi−γ)+=sgn(β^LSi)(|β^LSi|−γ)+.
Cas 2 : . Cela implique que nous devons avoir et donc
En différenciant par rapport à et en fixant la valeur à zéro, nous obtenons . Mais, encore une fois, pour que cela soit réalisable, nous avons besoin de , qui est obtenu en prenant
β^LSi≤0βi≤0
Li=−β^LSiβi+12β2i−γβi.
βiβi=β^LSi+γ=sgn(β^LSi)(|β^LSi|−γ)βi≤0β^lassoi=sgn(β^LSi)(|β^LSi|−γ)+.
Dans les deux cas, nous obtenons le formulaire souhaité et nous avons donc terminé.
Remarques finales
Notez que lorsque augmente, alors chacun desdécroît nécessairement, donc aussi . Lorsque , nous récupérons les solutions OLS et, pour, on obtient pour tout .γ|β^lassoi|∥β^lasso∥1γ=0γ>maxi|β^LSi|β^lassoi=0i