Afficher l'équivalence entre le Norm régularisées régression et Norm Constrained régression en utilisant KKT

Selon les références Livre 1 , Livre 2 et papier .

Il a été mentionné qu'il existe une équivalence entre la régression régularisée (Ridge, LASSO et Elastic Net) et leurs formules de contraintes.

J'ai également examiné Cross Validated 1 et Cross Validated 2 , mais je ne vois pas de réponse claire pour montrer que l'équivalence ou la logique.

Ma question est

Comment montrer cette équivalence en utilisant Karush – Kuhn – Tucker (KKT)?

Les formules suivantes concernent la régression Ridge.

REMARQUE

Cette question n'est pas un devoir. C'est seulement pour augmenter ma compréhension de ce sujet.

MISE À JOUR

Je n'ai pas encore l'idée.

— jeza
source

Pourquoi avez-vous besoin de plus d'une réponse? La réponse actuelle semble aborder la question de manière globale. Si vous voulez en savoir plus sur les méthodes d'optimisation, l' optimisation convexe Lieven Vandenberghe et Stephen P. Boyd est un bon point de départ.

— Sycorax dit Réintégrer Monica le

@Sycorax, merci pour vos commentaires et le livre que vous me fournissez. La réponse n'est pas si claire pour moi et je ne peux pas demander plus de précisions. Ainsi, plus d'une réponse peut me permettre de voir une perspective et un mode de description différents.

— jeza

@jeza, Qu'est-ce qui manque dans ma réponse?

— Royi

Veuillez saisir votre question sous forme de texte, ne pas simplement publier une photo (voir ici ).

— gung - Rétablir Monica

Réponses:

La réponse plus technique est parce que le problème d'optimisation contraint peut être écrit en termes de multiplicateurs de Lagrange. En particulier, le lagrangien associé au problème d'optimisation contraint est donné par

L (β) = \underset{β}{a r g m i n} {\sum_{i = 1}^{N} {(y_{i} - \sum_{j = 1}^{p} x_{i j} β_{j})}^{2}} + μ {(1 - α) \sum_{j = 1}^{p} | β_{j} | + α \sum_{j = 1}^{p} β_{j}^{2}}

$\mathcal L(\beta) = \underset{\beta}{\mathrm{argmin}}\,\left\{\sum_{i=1}^N \left(y_i - \sum_{j=1}^p x_{ij} \beta_j\right)^2\right\} + \mu \left\{(1-\alpha) \sum_{j=1}^p |\beta_j| + \alpha \sum_{j=1}^p \beta_j^2\right\}$ où

μ

$\mu$ est un multiplicateur choisi pour satisfaire les contraintes du problème. Les conditions de premier ordre (qui suffisent puisque vous travaillez avec de belles fonctions convexes propres) pour ce problème d'optimisation peuvent ainsi être obtenues en différenciant le lagrangien par rapport à

β

$\beta$ et en fixant les dérivées égales à 0 (c'est un peu plus nuancé depuis le LASSO La partie a des points indifférenciables, mais il existe des méthodes d'analyse convexe pour généraliser la dérivée pour que la condition du premier ordre fonctionne toujours). Il est clair que ces conditions de premier ordre sont identiques aux conditions de premier ordre du problème non contraint que vous avez noté.

max_{x} f (x) + λ g (x)

$\max_x f(x) + \lambda g(x)$

max_{x} f (x) + λ g (x) = max_{t} (max_{x} f (x) s . t g (x) = t) + λ t

$\max_x f(x) + \lambda g(x) = \max_t \left(\max_x f(x)\ \mathrm{ s.t }\ g(x) = t\right) + \lambda t$

λ

$\lambda$

t^{*}

$t^*$ qui résout le problème d'optimisation externe. Cela nous donne une sorte de mappage des problèmes d'optimisation non contraints aux problèmes contraints. Dans votre contexte particulier, comme tout se comporte bien pour la régression élastique nette, ce mappage devrait en fait être un à un, il sera donc utile de pouvoir basculer entre ces deux contextes en fonction de celui qui est le plus utile pour une application particulière. En général, cette relation entre les problèmes contraints et non contraints peut se comporter moins bien, mais il peut être utile de réfléchir à la mesure dans laquelle vous pouvez vous déplacer entre le problème contraint et le problème non contraint.

Edit: Comme demandé, j'inclurai une analyse plus concrète de la régression des crêtes, car elle capture les idées principales tout en évitant d'avoir à traiter les aspects techniques associés à la non-différentiabilité de la pénalité LASSO. Rappelons que nous résolvons un problème d'optimisation (en notation matricielle):

\underset{β}{a r g m i n} {\sum_{i = 1}^{N} y_{i} - x_{i}^{T} β} s . t . | | β | |^{2} \leq M

$\underset{\beta}{\mathrm{argmin}} \left\{\sum_{i=1}^N y_i - x_i^T \beta\right\}\quad\mathrm{s.t.}\, ||\beta||^2 \leq M$

$\beta^{OLS}$ $M < \left|\left|\beta^{OLS}\right|\right|$

L (β) = \underset{β}{a r g m i n} {\sum_{i = 1}^{N} y_{i} - x_{i}^{T} β} - μ \cdot | | β | |^{2} \leq M

$\mathcal L(\beta) = \underset{\beta}{\mathrm{argmin}} \left\{\sum_{i=1}^N y_i - x_i^T \beta\right\} - \mu\cdot||\beta||^2 \leq M$

0 = - 2 (\sum_{i = 1}^{N} y_{i} x_{i} + (\sum_{i = 1}^{N} x_{i} x_{i}^{T} + μ I) β)

$0 = -2 \left(\sum_{i=1}^N y_i x_i + \left(\sum_{i=1}^N x_i x_i^T + \mu I\right) \beta\right)$

\hat{β} = {(\sum_{i = 1}^{N} x_{i} x_{i}^{T} + μ I)}^{- 1} (\sum_{i = 1}^{N} y_{i} x_{i})

$\hat\beta = \left(\sum_{i=1}^N x_i x_i^T + \mu I\right)^{-1}\left(\sum_{i=1}^N y_i x_i\right)$

μ

$\mu$

{({(\sum_{i = 1}^{N} x_{i} x_{i}^{T} + μ I)}^{- 1} (\sum_{i = 1}^{N} y_{i} x_{i}))}^{T} ({(\sum_{i = 1}^{N} x_{i} x_{i}^{T} + μ I)}^{- 1} (\sum_{i = 1}^{N} y_{i} x_{i})) = M

$\left(\left(\sum_{i=1}^N x_i x_i^T + \mu I\right)^{-1}\left(\sum_{i=1}^N y_i x_i\right)\right)^T\left(\left(\sum_{i=1}^N x_i x_i^T + \mu I\right)^{-1}\left(\sum_{i=1}^N y_i x_i\right)\right) = M$

μ

$\mu$

μ \in (0, \infty)

$\mu \in (0,\infty)$

M \in (0, | | β^{O L S} | |)

$M \in \left(0, \left|\left|\beta^{OLS}\right|\right|\right)$

lim_{μ \to 0} M (μ) = | | β^{O L S} | |

$\lim_{\mu\to 0} M(\mu) = \left|\left|\beta^{OLS}\right|\right|$

lim_{μ \to \infty} M (μ) = 0

$\lim_{\mu \to \infty} M(\mu) = 0$

μ (M)

$\mu(M)$

M

$M$

μ \to 0

$\mu \to 0$

M \to | | β^{O L S} | |

$M \to \left|\right|\beta^{OLS}\left|\right|$

— stats_model
source

pourriez-vous s'il vous plaît nous fournir une réponse détaillée étape par étape avec un exemple pratique si possible.

— jeza

merci beaucoup, pourquoi vous ne mentionnez pas KKT? Je ne connais pas ce domaine, alors traitez-moi comme un lycéen.

— jeza le

M > | | β^{O L S} | |

$M > ||\beta^{OLS}||$

Il y a une grande analyse par stats_model dans sa réponse .

J'ai essayé de répondre à une question similaire à The Proof of Equivalent Formulas of Ridge Regression .

$t$ $\lambda$

Comme je l'ai écrit et comme le montre stats_model dans son analyse, la cartographie dépend des données. Nous choisirons donc une réalisation spécifique du problème. Pourtant, le code et l'esquisse de la solution ajouteront de l'intuition à ce qui se passe.

Nous comparerons les 2 modèles suivants:

The Regularized Model: \arg min_{x} \frac{1}{2} {‖ A x - y ‖}_{2}^{2} + λ {‖ x ‖}_{2}^{2}

$\text{The Regularized Model: } \arg \min_{x} \frac{1}{2} {\left\| A x - y \right\|}_{2}^{2} + \lambda {\left\| x \right\|}_{2}^{2}$

The Constrained Model: \begin{aligned} \arg min_{x} & \frac{1}{2} {‖ A x - y ‖}_{2}^{2} \\ subject to & {‖ x ‖}_{2}^{2} \leq t \end{aligned}

$\text{The Constrained Model: } \begin{align*} \arg \min_{x} \quad & \frac{1}{2} {\left\| A x - y \right\|}_{2}^{2} \\ \text{subject to} \quad & {\left\| x \right\|}_{2}^{2} \leq t \end{align*}$

$\hat{x}$ $\tilde{x}$

$t$ $\lambda$ $\hat{x} = \tilde{x}$
$\lambda$ $t$ ${L}_{2}$

$t$ $\lambda$

Le solveur résout essentiellement:

\begin{aligned} \arg_{λ} & λ \\ subject to & {‖ {(A^{T} A + 2 λ I)}^{- 1} A^{T} b ‖}_{2}^{2} - t = 0 \end{aligned}

$\begin{align*} \arg_{\lambda} \quad & \lambda \\ \text{subject to} \quad & {\left\| {\left( {A}^{T} A + 2 \lambda I \right)}^{-1} {A}^{T} b \right\|}_{2}^{2} - t = 0 \end{align*}$

Voici donc notre matrice:

mA =

   -0.0716    0.2384   -0.6963   -0.0359
    0.5794   -0.9141    0.3674    1.6489
   -0.1485   -0.0049    0.3248   -1.7484
    0.5391   -0.4839   -0.5446   -0.8117
    0.0023    0.0434    0.5681    0.7776
    0.6104   -0.9808    0.6951   -1.1300

Et voici notre vecteur:

Voici la cartographie:

$t$ $\lambda = 0$

Zoom avant sur la plage [0, 10]:

Le code complet est disponible sur mon référentiel GitHub Q401212 à validation croisée StackExchange .

— Royi
source