Comment trouver les coefficients de régression

En régression de crête, la fonction objectif à minimiser est:

RSS + λ \sum β_{j}^{2} .

$\text{RSS}+\lambda \sum\beta_j^2.$

Peut-on l'optimiser en utilisant la méthode du multiplicateur de Lagrange? Ou est-ce une différenciation directe?

regression regularization ridge-regression

— Minaj
source

Quel est le lien entre le titre (qui se concentre sur

λ

$\lambda$ ) et la question (qui semble ne concerner que le

β_{j}

$\beta_j$ )? Je crains que «être optimisé» puisse avoir des interprétations distinctement différentes selon les variables qui sont considérées comme celles qui peuvent être modifiées et celles qui doivent être fixées.

— whuber

merci modifié la question. J'ai lu que le

est trouvé par validation croisée - mais je crois que cela signifie que vous avez déjà le

et utilisez des données différentes pour trouver la meilleure question

est - comment trouvez-vous les

en premier lieu quand

est un inconnu?

λ

$\lambda$

β_{j}

$\beta_j$

λ

$\lambda$

β_{j}

$\beta_j$

λ

$\lambda$

— Minaj

Il existe deux formulations pour le problème des crêtes. Le premier est

β_{R} = \underset{β}{argmin} {(y - X β)}^{'} (y - X β)

$\boldsymbol{\beta}_R = \operatorname*{argmin}_{\boldsymbol{\beta}} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)^{\prime} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)$

sujet à

\sum_{j} β_{j}^{2} \leq s .

$\sum_{j} \beta_j^2 \leq s.$

Cette formulation montre la contrainte de taille sur les coefficients de régression. Notez ce que cette contrainte implique; nous forçons les coefficients à se situer dans une boule autour de l'origine de rayon . $\sqrt{s}$

La deuxième formulation est exactement votre problème

β_{R} = \underset{β}{argmin} {(y - X β)}^{'} (y - X β) + λ \sum β_{j}^{2}

$\boldsymbol{\beta}_R = \operatorname*{argmin}_{\boldsymbol{\beta}} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)^{\prime} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right) + \lambda \sum\beta_j^2$

qui peut être considérée comme la formulation du multiplicateur de Largrange. Notez qu'ici est un paramètre de réglage et que des valeurs plus élevées entraîneront un retrait plus important. Vous pouvez procéder à la différenciation de l'expression par rapport à et obtenir l'estimateur de crête bien connu $\lambda$ $\boldsymbol{\beta}$

\begin{matrix} (1) & β_{R} = {(X^{'} X + λ I)}^{- 1} X^{'} y \end{matrix}

$\boldsymbol{\beta}_{R} = \left( \mathbf{X}^{\prime} \mathbf{X} + \lambda \mathbf{I} \right)^{-1} \mathbf{X}^{\prime} \mathbf{y} \tag{1}$

Les deux formulations sont complètement équivalentes , car il existe une correspondance biunivoque entre et . $s$ $\lambda$

Permettez-moi de vous en dire un peu plus. Imaginez que vous êtes dans le cas orthogonal idéal, . Il s'agit d'une situation très simplifiée et irréaliste, mais nous pouvons enquêter un peu plus sur l'estimateur, alors soyez indulgent avec moi. Considérez ce qui arrive à l'équation (1). L'estimateur de crête se réduit à $\mathbf{X}^{\prime} \mathbf{X} = \mathbf{I}$

β_{R} = {(I + λ I)}^{- 1} X^{'} y = {(I + λ I)}^{- 1} β_{O L S}

$\boldsymbol{\beta}_R = \left( \mathbf{I} + \lambda \mathbf{I} \right)^{-1} \mathbf{X}^{\prime} \mathbf{y} = \left( \mathbf{I} + \lambda \mathbf{I} \right)^{-1} \boldsymbol{\beta}_{OLS}$

comme dans le cas orthogonal, l'estimateur OLS est donné par . En regardant ce composant maintenant, nous obtenons $\boldsymbol{\beta}_{OLS} = \mathbf{X}^{\prime} \mathbf{y}$

\begin{matrix} (2) & β_{R} = \frac{β_{O L S}}{1 + λ} \end{matrix}

$\beta_R = \frac{\beta_{OLS}}{1+\lambda} \tag{2}$

Notez alors que maintenant le retrait est constant pour tous les coefficients. Cela pourrait ne pas tenir dans le cas général et en effet , il peut être démontré que les rétrécissements seront très différents s'il y a dégénérescences dans le matrice. $\mathbf{X}^{\prime} \mathbf{X}$

Mais revenons au problème d'optimisation contraint. Selon la théorie KKT , une condition nécessaire pour l'optimalité est

λ (\sum β_{R, j}^{2} - s) = 0

$\lambda \left( \sum \beta_{R,j} ^2 -s \right) = 0$

soit ou (dans ce cas, nous disons que la contrainte est contraignante). Si alors il n'y a pas de pénalité et nous sommes de retour dans la situation OLS régulière. Supposons alors que la contrainte est contraignante et que nous sommes dans la seconde situation. En utilisant la formule de (2), nous avons alors $\lambda = 0$ $\sum \beta_{R,j} ^2 -s = 0$ $\lambda = 0$

s = \sum β_{R, j}^{2} = \frac{1}{{(1 + λ)}^{2}} \sum β_{O L S, j}^{2}

$s = \sum \beta_{R,j}^2 = \frac{1}{\left(1 + \lambda \right)^2} \sum \beta_{OLS,j}^2$

d'où nous obtenons

λ = \sqrt{\frac{\sum β_{O L S, j}^{2}}{s}} - 1

$\lambda = \sqrt{\frac{\sum \beta_{OLS,j} ^2}{s}} - 1$

la relation un à un précédemment revendiquée. Je m'attends à ce que cela soit plus difficile à établir dans le cas non orthogonal, mais le résultat est valable malgré tout.

Regardez encore (2) et vous verrez que nous manquons toujours le . Pour obtenir une valeur optimale, vous pouvez soit utiliser la validation croisée, soit regarder la trace de la crête. Cette dernière méthode consiste à construire une séquence de dans (0,1) et à regarder comment les estimations changent. Vous sélectionnez ensuite le qui les stabilise. Cette méthode a d'ailleurs été suggérée dans la seconde des références ci-dessous et est la plus ancienne. $\lambda$ $\lambda$ $\lambda$

Les références

Hoerl, Arthur E. et Robert W. Kennard. "Régression de crête: estimation biaisée pour les problèmes non orthogonaux." Technometrics 12.1 (1970): 55-67.

Hoerl, Arthur E. et Robert W. Kennard. "Régression de crête: applications à des problèmes non orthogonaux." Technometrics 12.1 (1970): 69-82.

— JohnK
source

La régression @Minaj Ridge a un retrait constant pour tous les coefficients (autres que l'ordonnée à l'origine). C'est pourquoi il n'y a qu'un seul multiplicateur.

— JohnK

@amoeba Il s'agit d'une suggestion de Hoerl et Kennard, les personnes qui ont introduit la régression des crêtes dans les années 1970. D'après leur expérience - et la mienne - les coefficients se stabiliseront dans cet intervalle même avec des degrés extrêmes de multicolinéarité. Bien sûr, il s'agit d'une stratégie empirique et il n'est donc pas garanti de fonctionner tout le temps.

— JohnK

Vous pouvez également simplement faire la méthode de pseudo-observation et obtenir les estimations avec rien de plus compliqué qu'un programme de régression des moindres carrés droits. Vous pouvez également étudier l'effet de la modification de

d'une manière similaire.

λ

$\lambda$

— Glen_b -Reinstate Monica

@amoeba Il est vrai que la crête n'est pas invariante à l'échelle, c'est pourquoi il est courant de standardiser les données au préalable. J'ai inclus les références pertinentes au cas où vous souhaiteriez y jeter un œil. Ils sont extrêmement intéressants et pas si techniques.

— JohnK

@JohnK en effet, la régression de crête rétrécit chaque

d'une quantité différente, de sorte que le retrait n'est pas constant même s'il n'y a qu'un seul paramètre de retrait

β

$\beta$

λ

$\lambda$

— Frank Harrell

Mon livre Regression Modeling Strategies se penche sur l'utilisation d'un AIC efficace pour choisir . Cela vient de la probabilité du journal pénalisé et les degrés de liberté réels , ce dernier étant fonction de la façon dont les écarts de beaucoup sont réduits par Pénalisation. Une présentation à ce sujet est ici . Le package R trouve qui optimise l'AIC efficace et permet également de multiples paramètres de pénalité (par exemple, un pour les effets principaux linéaires, un pour les effets principaux non linéaires, un pour les effets d'interaction linéaires et un pour les effets d'interaction non linéaires). $\lambda$ $\hat{\beta}$ rmspentrace $\lambda$

— Frank Harrell
source

+1. Que pensez-vous de l'utilisation de l'erreur CV avec absence de calcul, calculée via la formule explicite (c'est-à-dire sans réellement effectuer le CV), pour choisir

? Avez-vous une idée de la façon dont il se compare dans la pratique à un «AIC efficace»?

λ

$\lambda$

— amibe dit Réintégrer Monica le

Je n'ai pas étudié ça. LOOCV prend beaucoup de calcul.

— Frank Harrell

Pas si la formule explicite est utilisée: stats.stackexchange.com/questions/32542 .

— amibe dit Réintégrer Monica le

Cette formule fonctionne pour le cas particulier de l'OLS, et non pour la probabilité maximale en général. Mais il existe une formule approximative utilisant les résidus de score. Je me rends bien compte que nous parlons principalement d'OLS dans cette discussion.

— Frank Harrell

Je ne le fais pas analytiquement, mais plutôt numériquement. Je trace habituellement RMSE vs λ en tant que tel:

Figure 1. RMSE et la constante λ ou alpha.

— Lennart
source

λ

$\lambda$

β_{j}

$\beta_j$

λ

$\lambda$