KKT versus formulation non contrainte de régression au lasso


20

La régression pénalisée L1 (alias lasso) est présentée en deux formulations. Soit les deux fonctions objectives

Q1=12||YXβ||22Q2=12||YXβ||22+λ||β||1.
Alors les deux formulations différentes sont
argminβQ1
sous réserve de
||β||1t,
et, de façon équivalente
argminβQ2.
En utilisant les conditions de Karush-Kuhn-Tucker (KKT), il est facile de voir comment la condition de stationnarité pour la première formulation équivaut à prendre le gradient de la deuxième formulation et à le mettre égal à 0. Ce que je ne peux pas trouver, ni comprendre , est la manière dont la condition de mou complémentaire pour la première formulation,λ(||β||1t)=0 , est garantie d'être remplie par la solution de la deuxième formulation.

Réponses:


16

Les deux formulations sont équivalentes en ce sens que pour chaque valeur de dans la première formulation, il existe une valeur de λ pour la deuxième formulation telle que les deux formulations ont le même minimiseur β .tλβ

Voici la justification:

Considérons la formulation du lasso: Soit le minimiseurβetb=| | β| | 1. Mon affirmation est que si vous définissezt=bdans la première formulation, alors la solution de la première formulation sera égalementβ. Voici la preuve:

f(β)=12||YXβ||22+λ||β||1
βb=||β||1t=bβ

Considérez la première formulation Si possibleque cette seconde formulation ont une solution β telle que| | ß | | 1<| | β| | 1=b(notez le signe strictement inférieur à). Ensuiteil est facile de voir quef( β )<f(β

min12||YXβ||22 s.t.||β||1b
β^||β^||1<||β||1=b contredisant le fait que βf(β^)<f(β)β est une solution pour le lasso. Ainsi, la solution de la première formulation est également .β

Puisque , la condition de mou complémentaire est satisfaite au point de solution β .t=bβ

Donc, étant donné une formulation de lasso avec , vous construisez une formulation contrainte en utilisant un t égal à la valeur de la norme l 1 de la solution de lasso. Inversement, étant donné une formulation contrainte avec t , vous trouvez un λ tel que la solution du lasso sera égale à la solution de la formulation contrainte.λtl1tλ

(Si vous connaissez les sous-gradients, vous pouvez trouver ce en résolvant l'équation X T ( y - X β ) = λ z , où z | | β | | 1 )λXT(yXβ)=λzz||β||1)


1
Excellent. Une fois que vous voyez la solution, vous vous sentez toujours stupide de ne pas y arriver vous-même. Je suppose que vous voulez dire, à trouver la contradiction, supposons que nous trouvons un β tel que | | ß | | 1 < | | β | | 1 = b ? β^||β^||1<||β||1=b
goodepic

Considérez la réponse de flaggin comme correcte
bdeonovic

2
Pouvez - vous expliquer pourquoi f(β^)<f(β)
goofd

Cela prouve que la solution de la première formulation doit également avoir une norme l1 de b. Comment prouve-t-on que les deux solutions sont bien les mêmes?
broncoAbierto

1
En outre, le Lasso n'a pas toujours une solution unique, donc nous ne pouvons pas se référer à la Minimizer. arxiv.org/pdf/1206.0313.pdf . On pourrait cependant se référer à l'ensemble des minimiseurs et montrer que certains ßß * doit appartenir à cet ensemble. β^β
broncoAbierto

3

Je pense que l'idée d'elexhobby pour cette preuve est bonne, mais je ne pense pas qu'elle soit complètement correcte.

Pour démontrer que l'existence d'une solution pour la première , de telle sorte que β< β * conduit à une contradiction, on ne peut supposer la nécessité de β= β * , non que β = β * .β^β^<ββ^=ββ^=β

Je suggère plutôt de procéder comme suit:

P1P2P2ββ=bP1β^ββ^βf(β^)f(β)f(β^)<f(β)βP2f(β^)=f(β) then β^=β, since we assumed the solution to be unique.

However, it may be the case that the Lasso has multiple solutions. By lemma 1 of arxiv.org/pdf/1206.0313.pdf we know that all of these solutions have the same 1-norm (and the same minimum value, of course). We set that norm as the constraint for the P1 and proceed.

Let's denote by S the set of solutions to P2, with β=b βS. Let P1 have a solution, β^S. Then, we have that β^ββS and therefore f(β^)f(β)βS. If f(β^)=f(β) for some βS (and hence for all of them) then β^S, which contradicts our assumptions. If f(β^)<f(β) for some βS then S is not the set of solutions to P2. Therefore, every solution to P1 is in S, i.e. any solution to P1 is also a solution to P2. It would remain to prove that the complementary holds too.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.