Comprendre la régression de crête négative

Je recherche de la documentation sur la régression de crête négative .

En bref, il est une généralisation de la régression linéaire de la crête négative en utilisant $\lambda$ dans la formule

\hat{β} = (X^{⊤} X + λ I)^{- 1} X^{⊤} y .

$\hat\beta = ( X^\top X + \lambda I)^{-1} X^\top y.$ Le cas positif a une belle théorie: en tant que fonction de perte, en tant que contrainte, en tant que précédent Bayes ... mais je me sens perdu avec la version négative avec uniquement la formule ci-dessus. Cela s'avère utile pour ce que je fais, mais je n'arrive pas à l'interpréter clairement.

Connaissez-vous un texte d'introduction sérieux sur la crête négative? Comment l'interpréter?

regression regularization ridge-regression

— Benoit Sanchez
source

Je ne connais aucun texte d'introduction qui en parle, mais cette source peut être éclairante, en particulier la discussion au bas de la page 18: jstor.org/stable/4616538?seq=1#page_scan_tab_contents

— Ryan Simmons

Dans le cas où ce lien disparaîtrait à l'avenir, la citation complète est: Björkström, A. & Sundberg, R. "Une vue généralisée sur la régression du continuum". Scandinavian Journal of Statistics, 26: 1 (1999): pp.17-30

— Ryan Simmons

Merci beaucoup. Cela donne une interprétation claire de la crête via CR lorsque

(la plus grande valeur propre de la matrice de covariance). Toujours à la recherche d'une interprétation avec

...

λ < - λ_{1}

$\lambda<-\lambda_1$

λ > - λ_{1}

$\lambda>-\lambda_1$

— Benoit Sanchez

Notez dans ce développement de la régression des crêtes à partir de la régularisation de Tikhonov que la régularisation de Tikhonov

devient

pour la régression des crêtes. Par la suite,

est généralement remplacé par

. La seule façon de rendre ce négatif est que

soit imaginaire, c'est-à-dire un multiple de

Γ^{T} Γ

$\Gamma^{T} \Gamma$

α^{2} I

$\alpha^2 I$

α^{2}

$\alpha^2$

λ

$\lambda$

α

$\alpha$

. OK, maintenant quoi? Où voulez-vous aller avec?

i = \sqrt{- 1}

$i=\sqrt{-1}$

— Carl

Crête négative mentionnée ici: stats.stackexchange.com/questions/328630/… avec quelques liens

— kjetil b halvorsen

Voici une illustration géométrique de ce qui se passe avec la crête négative.

Je vais envisager des estimateurs de la forme provenant de la fonction de perte Voici une illustration assez standard de ce qui se passe dans un cas bidimensionnel avec

{\hat{β}}_{λ} = (X^{⊤} X + λ je)^{- 1} X^{⊤} y

$\hat{\boldsymbol\beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1}\mathbf X^\top\mathbf y$

L_{λ} = ‖ y - X β ‖^{2} + λ ‖ β ‖^{2} .

$\mathcal L_\lambda = \|\mathbf y - \mathbf X\boldsymbol\beta\|^2 + \lambda \|\boldsymbol\beta\|^2.$

λ \in [0, \infty)

$\lambda\in[0,\infty)$ . Zero lambda correspond à la solution OLS, infinite lambda réduit le beta estimé à zéro:

$\lambda\in(-\infty, -s^2_\max)$ $s_\mathrm{max}$ $\mathbf X$ $\hat{\boldsymbol\beta}_\lambda$ $-s^2_\max$ $(\mathbf X^\top \mathbf X + \lambda \mathbf I)$ $\mathbf X$ $\hat{\boldsymbol\beta}_\lambda$ pointant dans la direction de PC1 mais avec une valeur absolue croissante à l'infini.

Ce qui est vraiment sympa, c'est qu'on peut le dessiner sur la même figure de la même manière: les bétas sont donnés par des points où les cercles touchent les ellipses de l'intérieur :

Lorsque , une logique similaire s'applique, permettant de continuer le chemin de crête de l'autre côté de l'estimateur OLS. Maintenant, les cercles touchent les ellipses de l'extérieur. la limite, les bêtas approchent de la direction PC2 (mais cela se passe bien en dehors de ce croquis): $\lambda\in(-s^2_\mathrm{min},0]$

La plage est en quelque sorte une lacune énergétique : les estimateurs n'y vivent pas sur la même courbe. $(-s^2_\mathrm{max}, -s^2_\mathrm{min})$

MISE À JOUR: Dans les commentaires @MartinL explique que pour la perte n'a pas de minimum mais a un maximum. Et ce maximum est donné par . C'est pourquoi la même construction géométrique avec le toucher cercle / ellipse continue de fonctionner: nous recherchons toujours des points à gradient nul. Lorsque , la perte $\lambda<-s^2_\mathrm{max}$ $\mathcal L_\lambda$ $\hat{\boldsymbol\beta}_\lambda$ $-s^2_\mathrm{min}<\lambda\le 0$ $\mathcal L_\lambda$ $\hat{\boldsymbol\beta}_\lambda$ $\lambda>0$

$-s^2_\mathrm{max}<\lambda<-s^2_\mathrm{min}$ $\mathcal L_\lambda$ $\hat{\boldsymbol\beta}_\lambda$

$\lambda\in(-\infty, -s^2_\max)$ $\lambda\to\infty$

$\lambda\in(-s^2_\mathrm{min},0]$ $\lambda>0$

— amibe dit réintégrer Monica
source

λ < - s_{max}^{2}

$\lambda < -s_\text{max}^2$

- s_{max}^{2} < λ < 0

$-s_\text{max}^2 < \lambda < 0$

β^{T} (X^{T} X + λ je) β .

$\beta^T (X^T X + \lambda I) \beta.$

λ < - s_{max}^{2}

$\lambda < - s_\text{max}^2$

- s_{max}^{2} < λ < 0

$- s_\text{max}^2 < \lambda < 0$

C'est très utile, merci beaucoup. J'ai mis à jour ma réponse.

— amibe dit Réintégrer Monica

- s_{max}^{2} < λ < - s_{min}^{2}

$-s_\text{max}^2 < \lambda < - s_\text{min}^2$

λ > - s_{min}^{2}

$\lambda > -s_\text{min}^2$

X^{T} X + λ I

$X^T X + \lambda I$