Pourquoi la régression de la crête glmnet me donne-t-elle une réponse différente du calcul manuel?

J'utilise glmnet pour calculer les estimations de régression de crête. J'ai obtenu des résultats qui m'ont rendu suspect dans la mesure où glmnet fait vraiment ce que je pense qu'il fait. Pour vérifier cela, j'ai écrit un script R simple où je compare le résultat de la régression de crête effectuée par résoudre et celui de glmnet, la différence est significative:

n    <- 1000
p.   <-  100
X.   <- matrix(rnorm(n*p,0,1),n,p)
beta <- rnorm(p,0,1)
Y    <- X%*%beta+rnorm(n,0,0.5)

beta1 <- solve(t(X)%*%X+5*diag(p),t(X)%*%Y)
beta2 <- glmnet(X,Y, alpha=0, lambda=10, intercept=FALSE, standardize=FALSE, 
                family="gaussian")$beta@x
beta1-beta2

La norme de la différence est généralement d'environ 20, ce qui ne peut pas être dû à des algorithmes numériquement différents, je dois faire quelque chose de mal. Quels sont les paramètres que je dois définir glmnetpour obtenir le même résultat qu'avec la crête?

r ridge-regression glmnet

— John
source

Avez-vous vu cette question ?

— cdeterman du

Oui, mais je n'obtiens toujours pas le même résultat en utilisant la normalisation.

— John

Pourriez-vous poster votre code alors?

— shadowtalker

Je viens d'avoir le même problème! a = data.frame (a = gigue (1:10), b = gigue (1:10), c = gigue (1:10), d = gigue (1:10), e = gigue (1:10) , f = gigue (1:10), g = échantillon (gigue (1:10)), y = seq (10,100,10)); coef (lm.ridge (y ~ a + b + c + d + e + f + g, a, lambda = 2,57)); coef (glmnet (as.matrix (a [, 1: 7]), a $ y, family = "gaussian", alpha = 0, lambda = 2.57 / 10)) Les résultats diffèrent un peu et deviennent beaucoup plus similaires lorsque J'utilise des lambdas beaucoup plus élevés pour glmnet.

— a11msp

Intrigant. Les coefficients semblent différer approximativement du facteur 10.

— tomka

Réponses:

La différence que vous observez est due à la division supplémentaire par le nombre d'observations, N, que GLMNET utilise dans leur fonction objective et à la standardisation implicite de Y par son écart-type d'échantillon comme indiqué ci-dessous.

\frac{1}{2 N} {‖ \frac{y}{s_{y}} - X β ‖}_{2}^{2} + λ ‖ β ‖_{2}^{2} / 2

$\frac{1}{2N}\left\|\frac{y}{s_y}-X\beta\right\|^2_{2}+\lambda\|\beta\|^2_{2}/2$

où nous utilisons au lieu de pour , $1/n$ $1/(n-1)$ $s_y$

s_{y} = \frac{\sum_{i} (y_{i} - \bar{y})^{2}}{n}

$s_y=\frac{\sum_i(y_i-\bar{y})^2}{n}$

En différenciant par rapport à la version bêta, en mettant l'équation à zéro,

X^{T} X β - \frac{X^{T} y}{s_{y}} + N λ β = 0

$X^TX\beta-\frac{X^Ty}{s_y}+N\lambda\beta =0$

Et en résolvant pour la bêta, on obtient l'estimation,

{\tilde{β}}_{g L M N E T} = (X^{T} X + N λ {je}_{p})^{- 1} \frac{X^{T} y}{s_{y}}

$\tilde{\beta}_{GLMNET}= (X^TX+N\lambda I_p)^{-1}\frac{X^Ty}{s_y}$

Pour récupérer les estimations (et leurs pénalités correspondantes) sur la métrique d'origine de Y, GLMNET multiplie les estimations et les lambdas par et renvoie ces résultats à l'utilisateur, $s_y$

{\hat{β}}_{g L M N E T} = s_{y} {\tilde{β}}_{g L M N E T} = (X^{T} X + N λ {je}_{p})^{- 1} X^{T} y

$\hat{\beta}_{GLMNET}=s_y\tilde{\beta}_{GLMNET}= (X^TX+N\lambda I_p)^{-1}X^Ty$

λ_{u n s t ré .} = s_{y} λ

$\lambda_{unstd.}=s_y\lambda$

Comparez cette solution avec la dérivation standard de la régression de crête.

\hat{β} = (X^{T} X + λ {je}_{p})^{- 1} X^{T} y

$\hat{\beta}= (X^TX+\lambda I_p)^{-1}X^Ty$

Notez que est mis à l'échelle par un facteur supplémentaire de N. De plus, lorsque nous utilisons la fonction ou , la pénalité sera implicitement mise à l'échelle par . Autrement dit, lorsque nous utilisons ces fonctions pour obtenir les estimations de coefficient pour certains , nous obtenons effectivement des estimations pour . $\lambda$ predict()coef() $1/s_y$ $\lambda^*$ $\lambda=\lambda^*/s_y$

Sur la base de ces observations, la peine utilisée dans GLMNET doit être mis à l' échelle par un facteur de . $s_y/N$

set.seed(123)

n    <- 1000
p   <-  100
X   <- matrix(rnorm(n*p,0,1),n,p)
beta <- rnorm(p,0,1)
Y    <- X%*%beta+rnorm(n,0,0.5)

sd_y <- sqrt(var(Y)*(n-1)/n)[1,1]

beta1 <- solve(t(X)%*%X+10*diag(p),t(X)%*%(Y))[,1]

fit_glmnet <- glmnet(X,Y, alpha=0, standardize = F, intercept = FALSE, thresh = 1e-20)
beta2 <- as.vector(coef(fit_glmnet, s = sd_y*10/n, exact = TRUE))[-1]
cbind(beta1[1:10], beta2[1:10])

           [,1]        [,2]
[1,]  0.23793862  0.23793862
[2,]  1.81859695  1.81859695
[3,] -0.06000195 -0.06000195
[4,] -0.04958695 -0.04958695
[5,]  0.41870613  0.41870613
[6,]  1.30244151  1.30244151
[7,]  0.06566168  0.06566168
[8,]  0.44634038  0.44634038
[9,]  0.86477108  0.86477108
[10,] -2.47535340 -2.47535340

Les résultats se généralisent à l'inclusion d'une variable d'interception et de variables X standardisées. Nous modifions une matrice X standardisée pour inclure une colonne d'unités et la matrice diagonale pour avoir une entrée de zéro supplémentaire en position [1,1] (c'est-à-dire ne pas pénaliser l'interception). Vous pouvez ensuite standardiser les estimations par leurs écarts-types d'échantillon respectifs (assurez-vous à nouveau d'utiliser 1 / n lors du calcul de l'écart-type).

{\hat{β}}_{j} = \frac{\tilde{β_{j}}}{s_{X_{j}}}

$\hat\beta_{j}=\frac{\tilde{\beta_j}}{s_{x_j}}$

{\hat{β}}_{0} = \tilde{β_{0}} - {\bar{X}}^{T} \hat{β}

$\hat\beta_{0}=\tilde{\beta_0}-\bar{x}^T\hat{\beta}$

mean_x <- colMeans(X)
sd_x <- sqrt(apply(X,2,var)*(n-1)/n)
X_scaled <- matrix(NA, nrow = n, ncol = p)
for(i in 1:p){
    X_scaled[,i] <- (X[,i] - mean_x[i])/sd_x[i] 
}
X_scaled_ones <- cbind(rep(1,n), X_scaled)

beta3 <- solve(t(X_scaled_ones)%*%X_scaled_ones+1000*diag(x = c(0, rep(1,p))),t(X_scaled_ones)%*%(Y))[,1]
beta3 <- c(beta3[1] - crossprod(mean_x,beta3[-1]/sd_x), beta3[-1]/sd_x)

fit_glmnet2 <- glmnet(X,Y, alpha=0, thresh = 1e-20)
beta4 <- as.vector(coef(fit_glmnet2, s = sd_y*1000/n, exact = TRUE))

cbind(beta3[1:10], beta4[1:10])
             [,1]        [,2]
 [1,]  0.24534485  0.24534485
 [2,]  0.17661130  0.17661130
 [3,]  0.86993230  0.86993230
 [4,] -0.12449217 -0.12449217
 [5,] -0.06410361 -0.06410361
 [6,]  0.17568987  0.17568987
 [7,]  0.59773230  0.59773230
 [8,]  0.06594704  0.06594704
 [9,]  0.22860655  0.22860655
[10,]  0.33254206  0.33254206

Code ajouté pour montrer X normalisé sans interception:

set.seed(123)

n <- 1000
p <-  100
X <- matrix(rnorm(n*p,0,1),n,p)
beta <- rnorm(p,0,1)
Y <- X%*%beta+rnorm(n,0,0.5)

sd_y <- sqrt(var(Y)*(n-1)/n)[1,1]

mean_x <- colMeans(X)
sd_x <- sqrt(apply(X,2,var)*(n-1)/n)

X_scaled <- matrix(NA, nrow = n, ncol = p)
for(i in 1:p){
    X_scaled[,i] <- (X[,i] - mean_x[i])/sd_x[i] 
}

beta1 <- solve(t(X_scaled)%*%X_scaled+10*diag(p),t(X_scaled)%*%(Y))[,1]

fit_glmnet <- glmnet(X_scaled,Y, alpha=0, standardize = F, intercept = 
FALSE, thresh = 1e-20)
beta2 <- as.vector(coef(fit_glmnet, s = sd_y*10/n, exact = TRUE))[-1]
cbind(beta1[1:10], beta2[1:10])

             [,1]        [,2]
 [1,]  0.23560948  0.23560948
 [2,]  1.83469846  1.83469846
 [3,] -0.05827086 -0.05827086
 [4,] -0.04927314 -0.04927314
 [5,]  0.41871870  0.41871870
 [6,]  1.28969361  1.28969361
 [7,]  0.06552927  0.06552927
 [8,]  0.44576008  0.44576008
 [9,]  0.90156795  0.90156795
[10,] -2.43163420 -2.43163420

— skijunkie
source

+6. Bienvenue sur CV et merci d'avoir répondu à cette vieille question d'une manière aussi claire.

— amoeba dit Reinstate Monica

Ce devrait être la matrice d'identité au lieu de dans la solution de , correct?

β

$\beta$

\tilde{β}

$\tilde{\beta}$

— user1769197

Je remarque également que pour la deuxième partie où vous avez dit "Les résultats se généralisent à l'inclusion d'une variable d'interception et de variables X normalisées"; pour cette partie, si vous excluez l'interception, puis en suivant les mêmes calculs, les résultats de glmnet deviennent différents du calcul manuel.

— user1769197

Correct, j'ai mis à jour la solution avec la matrice d'identité à la place de au besoin. J'ai vérifié la solution pour X normalisé sans interception et j'obtiens toujours des résultats identiques (voir le code supplémentaire ci-dessus).

β

$\beta$

— skijunkie

Selon https://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html , lorsque la famille est gaussian, glmnet()devrait minimiser

\begin{matrix} (1) & \frac{1}{2 n} \sum_{je = 1}^{n} (y_{je} - β_{0} - X_{je}^{T} β)^{2} + λ \sum_{j = 1}^{p} (α | β_{j} | + (1 - α) β_{j}^{2} / 2) . \end{matrix}

$\frac{1}{2n} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\lambda\sum_{j=1}^p(\alpha|\beta_j| +(1-\alpha)\beta_j^2/2). \tag{1}$

Lors de l'utilisation glmnet(x, y, alpha=1)pour ajuster le lasso avec les colonnes en normalisées, la solution pour la pénalité rapportée est la solution pour minimiser Cependant, au moins dans , lors de l'utilisation pour ajuster la régression de crête, la solution pour une pénalité rapportée est la solution pour minimiser où est l'écart-type de . Ici, la pénalité aurait dû être signalée comme . $x$ $\lambda$

\frac{1}{2 n} \sum_{je = 1}^{n} (y_{je} - β_{0} - X_{je}^{T} β)^{2} + λ \sum_{j = 1}^{p} | β_{j} | .

$\frac{1}{2n} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\lambda \sum_{j=1}^p |\beta_j|.$ glmnet_2.0-13glmnet(x, y, alpha=0)

λ

$\lambda$

\frac{1}{2 n} \sum_{je = 1}^{n} (y_{je} - β_{0} - X_{je}^{T} β)^{2} + λ \frac{1}{2 s_{y}} \sum_{j = 1}^{p} β_{j}^{2} .

$\frac{1}{2n} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\lambda \frac{1}{2s_y} \sum_{j=1}^p \beta_j^2.$

s_{y}

$s_y$

y

$y$

λ / s_{y}

$\lambda/s_y$

Ce qui pourrait arriver, c'est que la fonction standardise d'abord en puis minimise qui est effectivement de minimiser ou de manière équivalente, pour minimiser $y$ $y_0$

\begin{matrix} (2) & \frac{1}{2 n} \sum_{je = 1}^{n} (y_{0 je} - X_{je}^{T} γ)^{2} + η \sum_{j = 1}^{p} (α | γ_{j} | + (1 - α) γ_{j}^{2} / 2), \end{matrix}

$\frac{1}{2n} \sum_{i=1}^n (y_{0i}-x_i^T\gamma)^2 +\eta \sum_{j=1}^p(\alpha|\gamma_j| +(1-\alpha)\gamma_j^2/2), \tag{2}$

\frac{1}{2 n s_{y}^{2}} \sum_{je = 1}^{n} (y_{je} - β_{0} - X_{je}^{T} β)^{2} + η \frac{α}{s_{y}} \sum_{j = 1}^{p} | β_{j} | + η \frac{1 - α}{2 s_{y}^{2}} \sum_{j = 1}^{p} β_{j}^{2},

$\frac{1}{2n s_y^2} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\eta \frac{\alpha}{s_y} \sum_{j=1}^p |\beta_j| +\eta \frac{1-\alpha}{2s_y^2} \sum_{j=1}^p \beta_j^2,$

\frac{1}{2 n} \sum_{je = 1}^{n} (y_{je} - β_{0} - X_{je}^{T} β)^{2} + η s_{y} α \sum_{j = 1}^{p} | β_{j} | + η (1 - α) \sum_{j = 1}^{p} β_{j}^{2} / 2.

$\frac{1}{2n} \sum_{i=1}^n (y_i-\beta_0-x_i^T\beta)^2 +\eta s_y \alpha \sum_{j=1}^p |\beta_j| +\eta (1-\alpha) \sum_{j=1}^p \beta_j^2/2.$

Pour le lasso ( ), redimensionner pour signaler la pénalité car est logique. Ensuite, pour tous les , doit être signalé comme pénalité pour maintenir la continuité des résultats sur . C'est probablement la cause du problème ci-dessus. Cela est dû en partie à l'utilisation de (2) pour résoudre (1). Ce n'est que lorsque ou qu'il existe une certaine équivalence entre les problèmes (1) et (2) (c'est-à-dire une correspondance entre le dans (1) et le dans (2)). Pour tout autre $\alpha=1$ $\eta$ $\eta s_y$ $\alpha$ $\eta s_y$ $\alpha$ $\alpha=0$ $\alpha=1$ $\lambda$ $\eta$ $\alpha\in(0,1)$ , les problèmes (1) et (2) sont deux problèmes d'optimisation différents, et il n'y a pas de correspondance biunivoque entre le dans (1) et le dans (2). $\lambda$ $\eta$

— Chun Li
source

Je ne vois pas en quoi votre réponse diffère de la précédente. Pourriez-vous expliquer, s'il vous plaît?

— Firebug

@Firebug Je voulais expliquer pourquoi la fonction signale le lambda de cette façon, qui ne semble pas naturel lorsqu'elle est vue uniquement du point de vue de la régression des crêtes, mais qui a du sens (ou doit être de cette façon) lorsqu'elle est vue du point de vue de l'ensemble du spectre y compris la crête et le lasso.

— Chun Li