Formulation de régression de crête sous contrainte versus pénalisée: comment sont-elles équivalentes?


10

Je semble mal comprendre une affirmation sur les méthodes de régression linéaire que j'ai vu à divers endroits. Les paramètres du problème sont:

Contribution:

N échantillons de données de quantités constituées chacune d'une quantité de "réponse" et de quantités de "prédicteur"p+1yipxij

Le résultat souhaité est un "bon ajustement linéaire" qui prédit la réponse sur la base des prédicteurs où un bon ajustement présente de petites différences entre la prédiction et la réponse observée (entre autres critères).

Sortie: coefficients où est un "bon ajustement" pour prédire la quantité de réponse à partir des quantités de prédicteur. p+1βjβ0+j=1pxijβj

Je suis confus quant à l'approche de "régression de crête" à ce problème. Dans «The Elements of Statistical Learning» de Hastie, Tibshirani et Friedman page 63, la régression des crêtes est formulée de deux manières.

D'abord comme problème d' optimisation contraint :

argminβi=1N(yi(β0+j=1p(xijβj)))2
soumis à la contrainte pour un paramètre positif t.
j=1pβi2t

Le deuxième est le problème d'optimisation pénalisé : pour un paramètre positif .

argminβ(λj=1pβj2)+i=1N(yi(β0+j=1p(xijβj)))2
λ

Le texte dit que ces formulations sont équivalentes et qu'il existe une "correspondance un à un entre les paramètres et ". J'ai vu cette affirmation (et d'autres similaires) à plusieurs endroits en plus de ce livre. Je pense que je manque quelque chose parce que je ne vois pas comment les formulations sont équivalentes si je comprends bien.λt

Considérons le cas où et avec , et , . En choisissant le paramètre la formulation contrainte devient:N=2p=1y1=0x1,1=0y2=1x1,2=1t=2

argminβ0,β1(β02+(1(β0+β1))2)

étendu à

argminβ0,β1(2β02+2β0β12β0+β122β1+1)

Pour résoudre ce problème, trouvez la solution où les dérivées partielles par rapport à et sont nulles: avec la solution et . Notez que comme requis.β0β1

4β0+2β12=0
2β0+2β12=0
β0=0β1=1β02+β12t

Quel est le lien entre cette dérivation et l'autre formulation? Selon l'explication, il y a une certaine valeur de correspondant uniquement à où si nous optimisons la formulation pénalisée du problème, nous les mêmes et . Dans ce cas, la forme pénalisée devient étendu à Pour résoudre ce problème, trouvez la solution où les dérivées partielles avec par rapport àλtβ0β1

argminβ0,β1(λ(β02+β12)+β02+(1(β0+β1))2)
argminβ0,β1(β02λ+2β02+2β0β12β0+β12λ+β122β1+1)
β0 et sont nuls: pour ces équations j'obtiens la solution Si c'est correct, la seule façon d'obtenir est de définir . Cependant, ce serait le même nous aurions besoin pour , alors que veulent-ils dire par "correspondance un à un"?β1
2β0λ+4β0+2β12=0
2β0+2β1λ+2β12=0
β0=λ/(λ2+3λ+1)
β1=(λ+1)/((λ+1)(λ+2)1)
β0=0λ=0λt=4

En résumé, je suis totalement confus par les deux présentations et je ne comprends pas comment elles se correspondent. Je ne comprends pas comment vous pouvez optimiser un formulaire et obtenir la même solution pour l'autre formulaire ou comment est lié à . Ce n'est qu'un exemple de ce type de correspondance - il y en a d'autres pour d'autres approches comme le lasso - et je ne comprends aucune d'entre elles.λt

Quelqu'un, s'il vous plaît, aidez-moi.


1
Connexes: stats.stackexchange.com/questions/190993 (voir la réponse acceptée).
amoeba du

1
Le lien "connexe" réaffirme la correspondance discutée dans la question sans aborder cette question ni l'exemple de cas illustré. Je ne pense pas que cela réponde à cette question.
Aaron Watters

Réponses:


6

La confusion vient ici d'essayer de travailler dans une plage de valeurs ou où il n'y a aucune contrainte sur la régression.tλ

Dans votre exemple, à l'ajustement parfait de la droite de régression, la somme des carrés des coefficients de régression est 1. Par conséquent, la valeur de (ou toute valeur de égale ou supérieure à 1) n'impose aucune contrainte à la régression. Dans l'espace des valeurs de , toute la régression non contrainte est représentée par . Il n'y a pas de correspondance biunivoque entre et dans la régression non contrainte ; toutes les valeurs de de 1 ou plus dans ce cas correspondent à . C'était la région sur laquelle vous enquêtiez.t=2tλλ=0tλ tλ=0

Seule une valeur de inférieure à 1 imposera une contrainte sur la régression, correspondant à des valeurs positives de . Comme le montre la réponse acceptée sur cette page , la correspondance biunivoque entre et est valable " lorsque la contrainte est contraignante ", dans votre exemple pour les valeurs de inférieures à 1.tλtλt


Dans ce cas, ils doivent affirmer que la contrainte doit être contraignante. Par cela, voulez-vous dire que nous devons avoir pour que l'équivalence soit valide? βj2=t
Aaron Watters

1
En toute honnêteté, je ne pense pas que les gens se soucient trop des détails de l'optimisation contrainte lorsque la contrainte n'est pas contraignante. Ensuite, vous obtenez simplement la solution des moindres carrés ordinaires. Lorsque la contrainte est contraignante, l'optimisation devrait donner un résultat unique à la frontière de l'ensemble de contraintes tel que , fournissant une équivalence de avec dans ce cas. βj2=ttλ
EdM

+1. Si la contrainte n'est pas contraignante, il y a toujours une correspondance entre et mais ce n'est pas un à un: tout non contraignant correspond à correctement calculé par @Aaron. tλtλ=0
amoeba

Pour info, je suis programmeur. Il est important de savoir quand une méthode est appropriée lorsque vous écrivez des programmes informatiques. "La contrainte doit être contraignante" semble être omise de nombreuses présentations de la méthode.
Aaron Watters

4

La régression de crête classique ( régularisation de Tikhonov ) est donnée par:

argminx12xy22+λx22

L'affirmation ci-dessus est que le problème suivant est équivalent:

argminx12xy22subject tox22t

Définissons comme la solution optimale du premier problème et comme la solution optimale du second problème.x^x~

La revendication d'équivalence signifie que . À savoir, vous pouvez toujours avoir une paire de et , la solution du problème est la même.t,λ0:x^=x~
tλ0

Comment pourrions-nous trouver une paire?
Eh bien, en résolvant les problèmes et en examinant les propriétés de la solution.
Les deux problèmes sont convexes et fluides, ce qui devrait simplifier les choses.

La solution du premier problème est donnée au point où le gradient disparaît, ce qui signifie:

x^y+2λx^=0

Les conditions KKT du deuxième problème stipulent:

x~y+2μx~=0

et

μ(x~22t)=0

La dernière équation suggère que ou .μ=0x~22=t

Faites attention à ce que les 2 équations de base soient équivalentes.
À savoir si et deux équations sont valables. x^=x~μ=λ

Cela signifie donc que dans le cas on doit définir ce qui signifie que pour suffisamment grand pour que les deux soient équivalents, on doit définir .y22tμ=0tλ=0

Dans l'autre cas, on devrait trouver où:μ

yt(I+2μI)1(I+2μI)1y=t

C'est essentiellement quandx~22=t

Une fois que vous avez trouvé que les solutions entreront en collision.μ

En ce qui concerne le cas , eh bien, cela fonctionne avec la même idée. La seule différence est que nous n'avons pas fermé pour une solution, d'où la dérivation de la connexion est plus difficile.L1

Jetez un œil à ma réponse sur StackExchange Cross Validated Q291962 et StackExchange Signal Processing Q21730 - Signification de dans Basis Pursuitλ .


D'où venait le mu?
tatami

Ce qui précède résout 2 problèmes différents. Comme le premier utilise j'ai utilisé comme Lagrange Multiplier pour les contraintes d'inégalité du 2ème. λμ
Royi
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.