Comment dériver la solution de régression de crête?

41

J'ai des problèmes avec la dérivation de la solution pour la régression de crête.

Je connais la solution de régression sans le terme de régularisation:

β = (X^{T} X)^{- 1} X^{T} y .

$\beta = (X^TX)^{-1}X^Ty.$

Mais après avoir ajouté le terme L2 à la fonction de coût, comment se fait-il que la solution devienne $\lambda\|\beta\|_2^2$

β = (X^{T} X + λ I)^{- 1} X^{T} y .

$\beta = (X^TX + \lambda I)^{-1}X^Ty.$

— utilisateur34790
source

24

Il suffit de modifier la fonction de perte en ajoutant la pénalité. En termes de matrice, la fonction de perte quadratique initiale devient

(Y - X β)^{T} (Y - X β) + λ β^{T} β .

$(Y - X\beta)^{T}(Y-X\beta) + \lambda \beta^T\beta.$ Dériver par rapport à

β

$\beta$ conduit à l'équation normale

X^{T} Y = (X^{T} X + λ I) β

$X^{T}Y = \left(X^{T}X + \lambda I\right)\beta$ qui mène à l'estimateur de Ridge.

— johnny
source

1

Comment se fait-il que la dérivée de

λ β^{T} β

$\lambda \beta^T \beta$ soit égale à

λ I β

$\lambda I \beta$

— user34790 le

4

@ user34790 Ce n'est pas. C'est égal à

2 λ β

$2\lambda\beta$ . Mais le 2 annule avec 2 similaires sur les autres termes. Bien sûr, le facteur

I

$I$ est comme un facteur de 1 en algèbre "normale", vous pouvez le multiplier où bon vous semble sans rien changer.

— Bill

4

@bill: ici vous avez besoin du pour obtenir une matrice de la dimension correcte, de sorte que l'addition fonctionne avec : est juste un scalaire

I

$I$

X^{T} X

$X^TX$

λ

$\lambda$

— Henry

48

Construisons sur ce que nous savons, à savoir que chaque fois que la matrice de modèle est , la réponse -vector est et le paramètre -vector est , la fonction objectif $n\times p$ $X$ $n$ $y$ $p$ $\beta$

f (β) = (y - X β)^{'} (y - X β)

$f(\beta) = (y - X\beta)^\prime(y - X\beta)$

(qui est la somme des carrés des résidus) est minimisé quand résout les équations normales $\beta$

(X^{'} X) β = X^{'} y .

$(X^\prime X)\beta = X^\prime y.$

La régression de crête ajoute un autre terme à la fonction objectif (généralement après normalisation de toutes les variables afin de les rendre communes), demandant de minimiser

(y - X β)^{'} (y - X β) + λ β^{'} β

$(y - X\beta)^\prime(y - X\beta) + \lambda \beta^\prime \beta$

pour une constante non-négative . C'est la somme des carrés des résidus plus un multiple de la somme des carrés des coefficients eux-mêmes (ce qui rend évident qu'il a un minimum global). Parce que , il a une racine carrée positive . $\lambda$ $\lambda\ge 0$ $\nu^2 = \lambda$

Considérons la matrice augmentée de lignes correspondant à fois la matrice d'identité : $X$ $\nu$ $p\times p$ $I$

X_{*} = (\begin{matrix} X \\ ν I \end{matrix})

$X_{*} = \pmatrix{X \\ \nu I}$

Lorsque le vecteur est étendu de manière similaire avec zéros à la fin de , le produit matriciel de la fonction objectif ajoute termes supplémentaires de la forme à l'objectif initial. Par conséquent $y$ $p$ $y_{*}$ $p$ $(0 - \nu \beta_i)^2 = \lambda \beta_i^2$

(y_{*} - X_{*} β)^{'} (y_{*} - X_{*} β) = (y - X β)^{'} (y - X β) + λ β^{'} β .

$(y_{*} - X_{*}\beta)^\prime(y_{*} - X_{*}\beta) = (y - X\beta)^\prime(y - X\beta) + \lambda \beta^\prime \beta.$

A partir de la forme de l’expression de gauche, il est immédiat que les équations de Normal soient

(X_{*}^{'} X_{*}) β = X_{*}^{'} y_{*} .

$(X_{*}^\prime X_{*})\beta = X_{*}^\prime y_{*}.$

Comme nous avons joint des zéros à la fin de , le côté droit est identique à . Du côté gauche est ajouté à l'original . Par conséquent, les nouvelles équations normales simplifient $y$ $X^\prime y$ $\nu^2 I=\lambda I$ $X^\prime X$

(X^{'} X + λ I) β = X^{'} y .

$(X^\prime X + \lambda I)\beta = X^\prime y.$

En plus d'être conceptuellement économique - aucune nouvelle manipulation n'est nécessaire pour obtenir ce résultat - il est également économique en calcul: votre logiciel de calcul des moindres carrés ordinaires effectuera également une régression de crête sans aucune modification. (Il peut néanmoins être utile dans les gros problèmes d’utiliser un logiciel conçu à cet effet, car il exploitera la structure particulière de pour obtenir des résultats efficaces pour un intervalle de très espacé , ce qui vous permettra d’explorer comment les réponses varient. avec .) $X_{*}$ $\lambda$ $\lambda$

Une autre beauté de cette façon de voir les choses est de savoir comment cela peut nous aider à comprendre la régression de crête. Quand on veut vraiment comprendre la régression, il est presque toujours utile d’y penser géométriquement: les colonnes de constituent des vecteurs dans un espace vectoriel réel de dimension . En joignant à , en les prolongeant ainsi de vecteurs à vecteurs, nous intégrons dans un espace plus grand en incluant "imaginaire", directions orthogonales. La première colonne de $X$ $p$ $n$ $\nu I$ $X$ $n$ $n+p$ $\mathbb{R}^n$ $\mathbb{R}^{n+p}$ $p$ $X$ reçoit un petit composant imaginaire de taille , l’allongeant ainsi et le déplaçant hors de l’espace généré par les colonnes originales . Le deuxième, troisième, ..., colonnes sont également rallongé et déplacé hors de l'espace d' origine du même montant - mais dans différentes directions nouvelles. Par conséquent, toute colinéarité présente dans les colonnes d'origine sera immédiatement résolue. De plus, plus devient grand, plus ces nouveaux vecteurs se rapprochent de $\nu$ $p$ $p^\text{th}$ $\nu$ $\nu$ $p$ directions imaginaires: elles deviennent de plus en plus orthonormées. En conséquence, la solution des équations de Normal deviendra immédiatement possible et deviendra rapidement numériquement stable à mesure que augmente à partir de . $\nu$ $0$

Cette description du processus suggère certaines approches novatrices et créatives pour résoudre les problèmes que Ridge Regression a été conçu pour traiter. Par exemple, en utilisant quelque moyen que ce soit (comme la décomposition de la variance décrite par Belsley, Kuh et Welsch dans leur livre de 1980 sur Regression Diagnostics , chapitre 3), vous pourrez peut-être identifier des sous-groupes de colonnes presque colinéaires de , où chaque sous-groupe est presque orthogonal à un autre. Il vous suffit d'adjoindre autant de lignes à (et de zéros à ) qu'il y a d'éléments dans le groupe le plus grand, en dédiant une nouvelle dimension "imaginaire" pour déplacer chaque élément d'un groupe loin de ses frères et soeurs: vous n'avez pas besoin de imaginaire dimensions pour le faire. $X$ $X$ $y$ $p$

— whuber
source

2

Le dernier auteur du livre est Welsch, pas gallois.

— Mark L. Stone

1

Whoa, cela m'a juste frappé l'esprit. Y a-t-il une discussion sur ce qui se passe quand ceci est généralisé en dehors des modèles linéaires, c'est-à-dire aux GLM? La pénalité ne devrait pas être identique à la régression de crête ... mais cette interprétation implique que ce serait toujours un estimateur potentiellement utile!

— Cliff AB

2

@ Cliff C'est une suggestion très intéressante. Cependant, étant donné que les estimations GLM dépendent de manière plus compliquée de et que leurs estimateurs ne peuvent généralement pas être factorisés sous la forme comme ils le sont pour MCO (où et ), il peut être difficile d'établir une relation utile entre l' imposition d' une fonction de pénalité et de modifier les colonnes de . En particulier, il est difficile de savoir comment les valeurs de devraient être augmentées pour que cela fonctionne.

X

$X$

\hat{β} = g (X) \cdot h (y)

$\hat\beta = g(X)\cdot h(y)$

g (X) = (X^{'} X)^{- 1} X^{'}

$g(X)=(X^\prime X)^{-1}X^\prime$

h (y) = y

$h(y)=y$

X

$X$

y

$y$

— whuber

1

Oui, il faudrait un peu de réflexion pour essayer de déterminer quelle est la peine, mais cela ne me préoccupe pas tellement. L'idée de ce qui

à utiliser est généralement pas facile non plus ... sauf peut - être dans le cas de la régression logistique, où nous pourrions ajouter deux

s

un des 0 et un des 1. Cette augmentation serait alors une version plus générale de "l'estimateur binomial +2" (le nom de cet estimateur est plus approprié, ce qui correspond essentiellement à l'estimation de

partir d'une distribution binomiale en utilisant la moyenne postérieure). l'estimation avec un préalable uniforme sur

).

y_{*}

$y_*$

y_{*}

$y_*$

p

$p$

p

$p$

— Cliff AB

@ Mark Merci pour la correction. Vous pouvez dire que je partais de mémoire ... :-).

— whuber

20

min_{β} (Y - β^{T} X)^{T} (Y - β^{T} X) + λ β^{T} β

$\begin{equation} \min_\beta (Y-\beta^T X)^T(Y-\beta^T X)+\lambda \beta^T \beta \end{equation}$

Notez maintenant que et Ensemble nous arrivons à la condition du premier ordre Isoler donne la solution:

\frac{\partial (Y - β^{T} X)^{T} (Y - β^{T} X)}{\partial β} = - 2 X^{T} (Y - β^{T} X)

$\begin{equation} \frac{\partial (Y-\beta^T X)^T (Y-\beta^T X)}{\partial \beta}=-2X^T(Y-\beta^T X) \end{equation}$

\frac{\partial λ β^{T} β}{\partial β} = 2 λ β .

$\begin{equation} \frac{\partial \lambda \beta^T \beta}{\partial \beta}=2\lambda\beta. \end{equation}$

X^{T} Y = X^{T} X β + λ β .

$\begin{equation} X^TY = X^TX\beta + \lambda\beta. \end{equation}$

β

$\beta$

β = (X^{T} X + λ I)^{- 1} X^{T} Y .

$\begin{equation} \beta = (X^TX+ \lambda I )^{-1}X^T Y. \end{equation}$

— Pthesling
source

9

Je suis récemment tombé sur la même question dans le contexte de P-Splines et, comme le concept est le même, je souhaite donner une réponse plus détaillée sur la dérivation de l'estimateur de crête.

Nous commençons par une fonction de critère pénalisée qui diffère de la fonction de critère classique MCO par son terme de pénalisation dans le dernier sommand:

$Criterion_{Ridge} = \sum_{i=1}^{n}(y_i-x_i^T\beta)^2 + \lambda \sum_{j=1}^p\beta_j^2$

où

la quantité de covariables utilisées dans le modèle $p=$
votre prédicteur linéaire standard $x_i^T\beta =$
le premier sommet représente la MSE (divergence au carré de la prédiction par rapport à la valeur réelle) que nous voulons minimiser comme d'habitude
le deuxième sommet représente la pénalisation que nous appliquons sur les coefficients. Nous sommes ici dans le contexte Ridge qui implique une mesure de distance euclidienne et donc le degré 2 dans le terme de pénalisation. Dans le cas d'une pénalisation de lasso, nous appliquerions un degré de 1 et produirions un estimateur totalement différent.

Nous pouvons réécrire ce critère en notation matricielle et le décomposer:

$Criterion_{Ridge} = (y-X\beta)^T(y-X\beta) + \lambda\beta^T\beta$

$= y^Ty - \beta^TX^Ty - y^TX\beta+ \beta^Tx^TX\beta + \lambda\beta^T\beta$

avec étant la matrice d'identité $= y^Ty - \beta^TX^Ty - \beta^TX^Ty + \beta^TX^TX\beta + \beta^T\lambda I\beta$ $I$

$= y^Ty - 2\beta^TX^Ty + \beta^T(X^TX + \lambda I)\beta$

Maintenant, nous cherchons le qui minimise notre critère. Nous utilisons entre autres la règle de différenciation matricielle $\beta$ queon peut appliquer ici: $\frac{\partial x^TAx}{\partial x} = (A+A^T)x \overset{\text{A symmetric}}{=} 2Ax$ $(X^TX + \lambda I) \in \mathbb{R}^{n \times n}$

$\frac{\partial Criterion_{Ridge} }{\partial\beta} = -2X^Ty + 2(X^TX + \lambda I)\beta \overset{!}{=}0$

$(X^TX + \lambda I)\beta = X^Ty$

$\overset{\text{et voilà}}{\Rightarrow} \hat\beta = (X^TX + \lambda I)^{-1} X^Ty$

— Jann Goschenhofer
source

@Jahn, pouvez-vous s'il vous plaît expliquer comment

est devenu

? Je pense que vous venez d'appliquer la transposition, d'accord. Cependant, vous ne pouvez pas appliquer la transposition à un terme sans l'appliquer à toutes les équations. Qu'est-ce que j'oublie ici?

y^{T} X β

$y^TX\beta$

β^{T} X^{T} y

$\beta ^TX^Ty$

— theateist

1

@theateist Un scalaire transposé est le même scalaire.

— Konstantin

2

Il manque quelques éléments importants dans les réponses fournies.

La solution pour est dérivé du premier ordre condition nécessaire: $\beta$ qui donne. Mais est-ce suffisant? Autrement dit, la solution est un minimum global que siest strictement convexe. Cela peut être montré pour être vrai. $\frac{\partial f_{ridge}(\beta, \lambda)}{\partial \beta} = 0$ $\beta = (X^TX+ \lambda I )^{-1}X^T Y$ $f_{ridge}(\beta, \lambda)$
Une autre façon de considérer le problème est de voir l'équivalence entre et contraint de . OLS signifie «moindres carrés ordinaires». De ce point de vue $f_{ridge}(\beta, \lambda)$ $f_{OLS}(\beta) = (Y-\beta^T X)^T(Y-\beta^T X)$ $||\beta||^2_2 \leq t$ n'est que la fonction lagrangienne utilisée pour trouver les minima globaux de la fonction objectif convexecontrainte de la fonction convexe . $f_{ridge}(\beta, \lambda)$ $f_{OLS}(\beta)$ $||\beta||^2_2$

Une bonne explication de ces points et de la dérivation de peut être trouvée dans ces notes de cours: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdf $\beta$

— Davor Josipovic
source