La preuve de formules équivalentes de régression de crête

15

J'ai lu les livres les plus populaires en apprentissage statistique

1- Les éléments de l'apprentissage statistique.

2- Une introduction à l'apprentissage statistique .

Les deux mentionnent que la régression de crête a deux formules qui sont équivalentes. Existe-t-il une preuve mathématique compréhensible de ce résultat?

Je suis également passé par Cross Validated , mais je n'y trouve pas de preuve définitive.

De plus, LASSO bénéficiera-t-il du même type de preuve?

— jeza
source

2

en.wikipedia.org/wiki/…

— Taylor

1

Le lasso n'est pas une forme de régression de crête.

— Xi'an

@jeza, pourriez-vous expliquer ce qui manque dans ma réponse? Il dérive vraiment tout ce qui peut être dérivé sur la connexion.

— Royi

@jeza, pourriez-vous être précis? À moins que vous ne connaissiez le concept lagrangien de problème contraint, il est difficile de donner une réponse concise.

— Royi

1

@jeza, un problème d'optimisation contraint peut être converti en optimisation de la fonction lagrangienne / conditions KKT (comme expliqué dans les réponses actuelles). Ce principe a déjà de nombreuses explications simples différentes sur Internet. Dans quelle direction une explication supplémentaire de la preuve est-elle nécessaire? Explication / preuve du multiplicateur / fonction lagrangien, explication / preuve comment ce problème est un cas d'optimisation qui concerne la méthode de Lagrange, différence KKT / Lagrange, explication du principe de régularisation, etc?

— Sextus Empiricus

19

La régression de crête classique ( régularisation de Tikhonov ) est donnée par:

\arg min_{x} \frac{1}{2} {‖ x - y ‖}_{2}^{2} + λ {‖ x ‖}_{2}^{2}

$\arg \min_{x} \frac{1}{2} {\left\| x - y \right\|}_{2}^{2} + \lambda {\left\| x \right\|}_{2}^{2}$

L'affirmation ci-dessus est que le problème suivant est équivalent:

\begin{aligned} \arg min_{x} & \frac{1}{2} {‖ x - y ‖}_{2}^{2} \\ subject to & {‖ x ‖}_{2}^{2} \leq t \end{aligned}

$\begin{align*} \arg \min_{x} \quad & \frac{1}{2} {\left\| x - y \right\|}_{2}^{2} \\ \text{subject to} \quad & {\left\| x \right\|}_{2}^{2} \leq t \end{align*}$

Définissons comme la solution optimale du premier problème et comme la solution optimale du second problème. $\hat{x}$ $\tilde{x}$

La revendication d'équivalence signifie que $\forall t, \: \exists \lambda \geq 0 : \hat{x} = \tilde{x}$ .
À savoir, vous pouvez toujours avoir une paire de $t$ et $\lambda \geq 0$ , la solution du problème est la même.

Comment pourrions-nous trouver une paire?
Eh bien, en résolvant les problèmes et en examinant les propriétés de la solution.
Les deux problèmes sont convexes et lisses, ce qui devrait simplifier les choses.

La solution du premier problème est donnée au point où le gradient disparaît, ce qui signifie:

\hat{x} - y + 2 λ \hat{x} = 0

$\hat{x} - y + 2 \lambda \hat{x} = 0$

Les conditions KKT du deuxième problème stipulent:

\tilde{x} - y + 2 μ \tilde{x} = 0

$\tilde{x} - y + 2 \mu \tilde{x} = 0$

et

μ ({‖ \tilde{x} ‖}_{2}^{2} - t) = 0

$\mu \left( {\left\| \tilde{x} \right\|}_{2}^{2} - t \right) = 0$

La dernière équation suggère que $\mu = 0$ ou ${\left\| \tilde{x} \right\|}_{2}^{2} = t$ .

Faites attention à ce que les 2 équations de base soient équivalentes.
A savoir si et les deux équations tiennent. $\hat{x} = \tilde{x}$ $\mu = \lambda$

Cela signifie donc que dans le cas où ${\left\| y \right\|}_{2}^{2} \leq t$ il faut définir $\mu = 0$ ce qui signifie que pour $t$ suffisamment grand pour que les deux soient équivalents, il faut définir $\lambda = 0$ .

Dans l'autre cas, on devrait trouver $\mu$ où:

y^{t} {(I + 2 μ I)}^{- 1} {(I + 2 μ I)}^{- 1} y = t

${y}^{t} \left( I + 2 \mu I \right)^{-1} \left( I + 2 \mu I \right)^{-1} y = t$

C'est essentiellement lorsque ${\left\| \tilde{x} \right\|}_{2}^{2} = t$

Une fois que vous avez trouvé que $\mu$ les solutions entreront en collision.

Concernant le cas ${L}_{1}$ (LASSO), eh bien, ça marche avec la même idée.
La seule différence est que nous n'avons pas fermé pour la solution, d'où la dérivation de la connexion est plus difficile.

Jetez un œil à ma réponse à StackExchange Cross Validated Q291962 et StackExchange Signal Processing Q21730 - Signification de $\lambda$ dans Basis Pursuit .

Remarque
Que se passe-t-il réellement?
Dans les deux problèmes, $x$ essaie d'être aussi proche que possible de $y$ .
Dans le premier cas, $x = y$ disparaîtra le premier terme (la distance ${L}_{2}$ ) et dans le second cas il fera disparaître la fonction objectif.
La différence est que dans le premier cas, il faut équilibrer la norme ${L}_{2}$ de $x$ . Lorsque $\lambda$ augmente, l'équilibre signifie que vous devez réduire $x$ .
Dans le second cas il y a un mur, vous rapprochez $x$ plus en plus de $y$ jusqu'à ce que vous frappiez le mur qui est la contrainte sur sa norme (By $t$ ).
Si le mur est suffisamment éloigné (valeur élevée de $t$ ) et assez dépend de la norme de $y$ alors i n'a pas de sens, tout comme $\lambda$ n'est pertinent que de sa valeur multipliée par la norme de $y$ commence à avoir un sens.
La connexion exacte est par le Lagrangien indiqué ci-dessus.

Ressources

J'ai trouvé cet article aujourd'hui (03/04/2019):

Dureté d'approximation pour une classe de problèmes d'optimisation clairsemés .

— Royi
source

fait l'équivalent signifie que les \ lambda et \ t devraient être les mêmes. Parce que je ne vois pas ça dans la preuve. merci

— jeza

@jeza, Comme je l'ai écrit ci-dessus, pour tout

il y a

(pas nécessairement égal à

mais une fonction de

et des données

) de sorte que les solutions des deux formes sont les mêmes.

t

$t$

λ \geq 0

$\lambda \geq 0$

t

$t$

t

$t$

y

$y$

— Royi

3

@jeza, les deux

et

sont essentiellement des paramètres libres ici. Une fois que vous avez spécifié, disons,

, cela donne une solution optimale spécifique. Mais

reste un paramètre libre. Donc, à ce stade, l'affirmation est qu'il peut y avoir une certaine valeur de

qui donnerait la même solution optimale. Il n'y a pratiquement pas de contraintes sur ce que

doit être; ce n'est pas comme si cela devait être une fonction fixe de

, comme

ou quelque chose.

λ

$\lambda$

t

$t$

λ

$\lambda$

t

$t$

t

$t$

t

$t$

λ

$\lambda$

t = λ / 2

$t=\lambda/2$

— gung - Rétablir Monica

@Royi, je voudrais savoir 1- pourquoi votre formule a (1/2), alors que les formules en question ne le sont pas? 2- utilisez KKT pour montrer l'équivalence des deux formules? 3- Si oui, je ne vois toujours pas cette équivalence. Je ne suis pas sûr mais ce que je m'attends à voir, c'est cette preuve pour montrer que la formule un = formule deux.

— jeza

1. Simplement plus facile lorsque vous différenciez le terme LS. Vous pouvez déplacer la forme my

vers l'OP

par un facteur de deux. 2. J'ai utilisé KKT pour le 2ème cas. Le premier cas n'a pas de contraintes, vous pouvez donc simplement le résoudre. 3. Il n'y a pas d'équation de forme fermée entre eux. J'ai montré la logique et comment vous pouvez créer un graphique les reliant. Mais comme je l'ai écrit, cela changera pour chaque

(cela dépend des données).

λ

$\lambda$

λ

$\lambda$

y

$y$

— Royi

9

Une approche moins rigoureuse mathématiquement, mais peut-être plus intuitive, pour comprendre ce qui se passe consiste à commencer par la version de contrainte (équation 3.42 dans la question) et à la résoudre en utilisant les méthodes du "Lagrange Multiplier" ( https: //en.wikipedia .org / wiki / Lagrange_multiplier ou votre texte de calcul multivariable préféré). N'oubliez pas que dans le calcul, est le vecteur des variables, mais dans notre cas, est constant et est le vecteur variable. Une fois que vous avez appliqué la technique du multiplicateur de Lagrange, vous vous retrouvez avec la première équation (3,41) (après avoir jeté l'extra qui est constant par rapport à la minimisation et peut être ignoré). $x$ $x$ $\beta$ $-\lambda t$

Cela montre également que cela fonctionne pour le lasso et d'autres contraintes.

— Greg Snow
source

8

Cela vaut peut-être la peine d'être lu sur la dualité lagrangienne et une relation plus large (parfois équivalente) entre:

optimisation soumise à des contraintes dures (c'est-à-dire inviolables)
optimisation avec pénalités pour violation des contraintes.

Introduction rapide à la dualité faible et à la dualité forte

Supposons que nous ayons une fonction de deux variables. Pour tout et , nous avons: $f(x,y)$ $\hat{x}$ $\hat{y}$

min_{x} f (x, \hat{y}) \leq f (\hat{x}, \hat{y}) \leq max_{y} f (\hat{x}, y)

$\min_x f(x, \hat{y}) \leq f(\hat{x}, \hat{y}) \leq \max_y f(\hat{x}, y)$

Depuis détient pour tout et détient également que: $\hat{x}$ $\hat{y}$

max_{y} min_{x} f (x, y) \leq min_{x} max_{y} f (x, y)

$\max_y \min_x f(x, y) \leq \min_x \max_y f(x, y)$

This is known as weak duality. In certain circumstances, you have also have strong duality (also known as the saddle point property):

max_{y} min_{x} f (x, y) = min_{x} max_{y} f (x, y)

$\max_y \min_x f(x, y) = \min_x \max_y f(x, y)$

When strong duality holds, solving the dual problem also solves the primal problem. They're in a sense the same problem!

Lagrangian for constrained Ridge Regression

Let me define the function $\mathcal{L}$ as:

L (b, λ) = \sum_{i = 1}^{n} (y - x_{i} \cdot b)^{2} + λ (\sum_{j = 1}^{p} b_{j}^{2} - t)

$\mathcal{L}(\mathbf{b}, \lambda) = \sum_{i=1}^n (y - \mathbf{x}_i \cdot \mathbf{b})^2 + \lambda \left( \sum_{j=1}^p b_j^2 - t \right)$

The min-max interpretation of the Lagrangian

The Ridge regression problem subject to hard constraints is:

min_{b} max_{λ \geq 0} L (b, λ)

$\min_\mathbf{b} \max_{\lambda \geq 0} \mathcal{L}(\mathbf{b}, \lambda)$

You pick $\mathbf{b}$ to minimize the objective, cognizant that after $\mathbf{b}$ is picked, your opponent will set $\lambda$ to infinity if you chose $\mathbf{b}$ such that $\sum_{j=1}^p b_j^2 > t$ .

If strong duality holds (which it does here because Slater's condition is satisfied for $t>0$ ), you then achieve the same result by reversing the order:

max_{λ \geq 0} min_{b} L (b, λ)

$\max_{\lambda \geq 0} \min_\mathbf{b} \mathcal{L}(\mathbf{b}, \lambda)$

Here, your opponent chooses $\lambda$ first! You then choose $\mathbf{b}$ to minimize the objective, already knowing their choice of $\lambda$ . The $\min_\mathbf{b} \mathcal{L}(\mathbf{b}, \lambda)$ part (taken $\lambda$ as given) is equivalent to the 2nd form of your Ridge Regression problem.

As you can see, this isn't a result particular to Ridge regression. It is a broader concept.

References

(I started this post following an exposition I read from Rockafellar.)

Rockafellar, R.T., Convex Analysis

You might also examine lectures 7 and lecture 8 from Prof. Stephen Boyd's course on convex optimization.

— Matthew Gunn
source

note that your answer can be extended to any convex function.

— 81235

6

They are not equivalent.

For a constrained minimization problem

\begin{matrix} (1) & min_{b} \sum_{i = 1}^{n} (y - x_{i}^{'} \cdot b)^{2} s . t . \sum_{j = 1}^{p} b_{j}^{2} \leq t, b = (b_{1}, . . ., b_{p}) \end{matrix}

$\min_{\mathbf b} \sum_{i=1}^n (y - \mathbf{x}'_i \cdot \mathbf{b})^2\\ s.t. \sum_{j=1}^p b_j^2 \leq t,\;\;\; \mathbf b = (b_1,...,b_p) \tag{1}$

we solve by minimize over $\mathbf b$ the corresponding Lagrangean

\begin{matrix} (2) & Λ = \sum_{i = 1}^{n} (y - x_{i}^{'} \cdot b)^{2} + λ (\sum_{j = 1}^{p} b_{j}^{2} - t) \end{matrix}

$\Lambda = \sum_{i=1}^n (y - \mathbf{x}'_i \cdot \mathbf{b})^2 + \lambda \left( \sum_{j=1}^p b_j^2 - t \right) \tag{2}$

Here, $t$ is a bound given exogenously, $\lambda \geq 0$ is a Karush-Kuhn-Tucker non-negative multiplier, and both the beta vector and $\lambda$ are to be determined optimally through the minimization procedure given $t$ .

Comparing $(2)$ and eq $(3.41)$ in the OP's post, it appears that the Ridge estimator can be obtained as the solution to

\begin{matrix} (3) & min_{b} {Λ + λ t} \end{matrix}

$\min_{\mathbf b}\{\Lambda + \lambda t\} \tag{3}$

Since in $(3)$ the function to be minimized appears to be the Lagrangean of the constrained minimization problem plus a term that does not involve $\mathbf b$ , it would appear that indeed the two approaches are equivalent...

But this is not correct because in the Ridge regression we minimize over $\mathbf b$ given $\lambda >0$ . But, in the lens of the constrained minimization problem, assuming $\lambda >0$ imposes the condition that the constraint is binding, i.e that

\sum_{j = 1}^{p} (b_{j, r i d g e}^{*})^{2} = t

$\sum_{j=1}^p (b^*_{j,ridge})^2 = t$

The general constrained minimization problem allows for $\lambda = 0$ also, and essentially it is a formulation that includes as special cases the basic least-squares estimator ( $\lambda ^*=0$ ) and the Ridge estimator ( $\lambda^* >0$ ).

So the two formulation are not equivalent. Nevertheless, Matthew Gunn's post shows in another and very intuitive way how the two are very closely connected. But duality is not equivalence.

— Alecos Papadopoulos
source

@MartijnWeterings Thanks for the comment, I have reworked my answer.

— Alecos Papadopoulos

@MartijnWeterings I do not see what is confusing since the expression written in your comment is exactly the expression I wrote in my reworked post.

— Alecos Papadopoulos

1

This was the duplicate question I had in mind were the equivalence is explained very intuitively to me math.stackexchange.com/a/336618/466748 the argument that you give for the two not being equivalent seems only secondary to me, and a matter of definition (the OP uses

λ \geq 0

$\lambda \geq 0$ instead of

λ > 0

$\lambda > 0$ and we could just as well add the constrain

t < ‖ β^{O L S} ‖_{2}^{2}

$t < \Vert \beta^{OLS} \Vert^2_2$ to exclude the cases where

λ = 0

$\lambda=0$ ) .

— Sextus Empiricus

@MartijnWeterings When A is a special case of B, A cannot be equivalent to B. And ridge regression is a special case of the general constrained minimization problem, Namely a situation to which we arrive if we constrain further the general problem (like you do in your last comment).

— Alecos Papadopoulos

Certainly you could define some constrained minimization problem that is more general then ridge regression (like you can also define some regularization problem that is more general than ridge regression, e.g. negative ridge regression), but then the non-equivalence is due to the way that you define the problem and not due to the transformation from the constrained representation to the Lagrangian representation. The two forms can be seen as equivalent within the constrained formulation/definition (non-general) that are useful for ridge regression.

— Sextus Empiricus