Régression linéaire lorsque vous ne connaissez que

Supposons que $X\beta =Y$ .

Nous ne savons pas $Y$ exactement, que sa corrélation avec chaque facteur prédictif, $X^\mathrm{t}Y$ .

La solution des moindres carrés ordinaires (OLS) est $\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y$ et il n'y a pas de problème.

Mais supposons que $X^\mathrm{t}X$ soit proche du singulier (multicolinéarité), et vous devez estimer le paramètre de crête optimal. Toutes les méthodes semblent avoir besoin des valeurs exactes de $Y$ .

Existe-t-il une méthode alternative lorsque seul $X^\mathrm{t}Y$ est connu?

regression multicollinearity

— Pointe
source

question interessante. Peut-être qu'une sorte d'algorithme EM fonctionnerait ...

— probabilités

Je ne comprends pas, ne pouvez-vous pas utiliser la validation croisée pour estimer le paramètre de crête optimal?

— Pardis

@Pardis: Aucune fonction de perte n'est donnée dans la question donc nous ne savons pas ce que signifie optimal . Pouvez-vous voir le problème que nous rencontrons si la fonction de perte est le MSE?

— cardinal

@JohnSmith: Vous faites allusion au point où je conduisais. Rien n'indique comment mesurer "l'optimalité". Ce que vous faites effectivement, c'est introduire une métrique différente (fonction de distance) pour mesurer la «qualité» de la prédiction ou de l'ajustement. Nous avons besoin de plus de détails de la part du PO pour aller très loin, je suppose.

— cardinal

@Pardis: comme vous le constatez, trouver les estimations n'est pas un problème. :) Cependant, si vous décidez de procéder à une validation croisée, comment allez-vous estimer le MSE hors échantillon, c'est-à-dire sur le pli gauche pour chaque itération? :)

— cardinal

Réponses:

C'est une question intéressante. Étonnamment, il est possible de faire quelque chose sous certaines hypothèses, mais il y a une perte potentielle d'informations sur la variance résiduelle. Cela dépend de $X$ combien est perdu.

Considérons la décomposition de valeurs singulières suivante de avec une matrice avec des colonnes orthonormées, une matrice diagonale avec des valeurs singulières positives $\newcommand{\t}{^\mathrm{t}}X = UDV\t$ $X$ $U$ $n \times p$ $D$ dans la matrice diagonale et a orthogonale. Alors les colonnes de et $d_1 \geq d_2 \geq ... \geq d_p > 0$ $V$ $p \times p$ $U$ forment une base orthonormée pour l'espace de colonne de $X$ est le vecteur de coefficients pour la projection de sur cet espace de colonne lorsqu'il est développé dans labase de la colonneD'après la formule, nous voyons que est calculable à partir de la connaissance de et

Z = U^{t} Y = D^{- 1} V^{t} V D U^{t} Y = D^{- 1} V^{t} X^{t} Y

$Z = U\t Y = D^{-1} V\t V D U\t Y = D^{-1} V\t X\t Y$

Y

$Y$

U

$U$

Z

$Z$

X

$X$

uniquement.

X^{t} Y

$X\t Y$

Etant donné que la prédiction de la régression de la crête d'une donnée peut être calculé en tant que nous voyons que les coefficients pour le prédicteur de régression de crête dans le $\lambda$

\hat{Oui} = X (X^{t} X + λ je)^{- 1} X^{t} Oui = U ré ({ré}^{2} + λ je)^{- 1} ré U^{t} Oui = U ré ({ré}^{2} + λ je)^{- 1} ré Z

$\hat{Y} = X(X\t X + \lambda I)^{-1} X\t Y = U D(D^2 + \lambda I)^{-1} D U\t Y = U D(D^2 + \lambda I)^{-1} D Z$

base -column sont

U

$U$

Maintenant, nous faisons l'hypothèse distributionnelle que

a unemoyenne à

dimensions

et une matrice de covariance

. Alors

a unemoyenne

dimensionnelle

et une matrice de covariance

. Si nous imaginons un

indépendant

\hat{Z} = ré ({ré}^{2} + λ je)^{- 1} ré Z .

$\hat{Z} = D (D^2 + \lambda I)^{-1} D Z.$

Y

$Y$

n

$n$

ξ

$\xi$

σ^{2} I_{n}

$\sigma^2 I_n$

Z

$Z$

p

$p$

U^{t} ξ

$U\t \xi$

σ^{2} I_{p}

$\sigma^2 I_p$

Y^{New}

$Y^{\text{New}}$ avec la même distribution que

(tout conditionnellement sur

partir de là) le

correspondant

Y

$Y$

X

$X$

a la même distribution que

et est indépendant et

Z^{New} = U^{t} Y^{New}

$Z^{\text{New}} = U\t Y^{\text{New}}$

Z

$Z$

Voici la troisième égalité suit par orthogonalité de

et le quatrième par le fait que

acolonnes orthonormales. La quantité

est une erreur sur laquelle nous ne pouvons obtenir aucune information, mais elle ne dépend pas de

\begin{array}{rcl} E | | Y^{New} - \hat{Y} | |^{2} & = & E | | Y^{New} - U Z^{New} + U Z^{New} - U \hat{Z} | |^{2} \\ = & E | | Y^{New} - U Z^{New} | |^{2} + E | | U Z^{New} - U \hat{Z} | |^{2} \\ = & {Err}_{0} + E | | Z^{New} - \hat{Z} | |^{2} . \end{array}

$\begin{eqnarray*} E ||Y^{\text{New}} - \hat{Y}||^2 &= & E || Y^{\text{New}} - U Z^{\text{New}} + U Z^{\text{New}} - U \hat{Z} ||^2 \\ & = & E || Y^{\text{New}} - U Z^{\text{New}}||^2 + E||U Z^{\text{New}} - U \hat{Z} ||^2 \\ & = & \text{Err}_0 + E||Z^{\text{New}} - \hat{Z} ||^2. \end{eqnarray*}$

Y^{New} - U Z^{New}

$Y^{\text{New}} - U Z^{\text{New}}$

U Z^{New} - U \hat{Z}

$U Z^{\text{New}} - U \hat{Z}$

U

$U$

{Err}_{0}

$\text{Err}_0$

λ

$\lambda$ Soit. Pour minimiser l'erreur de prédiction sur le côté gauche, nous devons minimiser le deuxième terme sur le côté droit.

Par un calcul standard Iciest connu comme les degrés de liberté effectifs pour la régression de crête avec le paramètre. Un estimateur non biaisé deest

\begin{array}{rcl} E | | Z^{New} - \hat{Z} | |^{2} & = & E | | Z - \hat{Z} | |^{2} + 2 \sum_{i = 1}^{p} cov (Z_{i}, {\hat{Z}}_{i}) \\ = & E | | Z - \hat{Z} | |^{2} + 2 σ^{2} \underset{df (λ)}{\underset{⏟}{\sum_{i = 1}^{p} \frac{d_{i}^{2}}{d_{i}^{2} + λ}}} . \end{array}

$\begin{eqnarray*} E||Z^{\text{New}} - \hat{Z} ||^2 &= & E||Z - \hat{Z}||^2 + 2 \sum_{i=1}^p \text{cov}(Z_i, \hat{Z}_i) \\ & = & E||Z - \hat{Z}||^2 + 2 \sigma^2 \underbrace{\sum_{i=1}^p \frac{d_i^2}{d_i^2 + \lambda}}_{\text{df}(\lambda)}. \end{eqnarray*}$

df (λ)

$\text{df}(\lambda)$

λ

$\lambda$

E | | Z - \hat{Z} | |^{2}

$E||Z - \hat{Z}||^2$

err (λ) = | | Z - \hat{Z} | |^{2} = \sum_{i = 1}^{p} {(1 - \frac{d_{i}^{2}}{d_{i}^{2} + λ})}^{2} Z_{i}^{2} .

$\text{err}(\lambda) = ||Z - \hat{Z}||^2 = \sum_{i=1}^p \left(1 - \frac{d_i^2}{d_i^2 + \lambda}\right)^2 Z_i^2.$

err (λ) + 2 σ^{2} df (λ)

$\text{err}(\lambda) + 2 \sigma^2 \text{df}(\lambda)$

E | | Z^{New} - \hat{Z} | |^{2}

$E||Z^{\text{New}} - \hat{Z} ||^2$

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

E | | Z - \hat{Z} | |^{2} = σ^{2} (p - \underset{d (λ)}{\underset{⏟}{\sum_{i = 1}^{p} \frac{d_{i}^{2}}{d_{i}^{2} + λ} (2 - \frac{d_{i}^{2}}{d_{i}^{2} + λ})}}) + bias (λ)^{2} .

$E||Z - \hat{Z}||^2 = \sigma^2\left(p - \underbrace{\sum_{i=1}^p \frac{d_i^2}{d_i^2 + \lambda}\left(2 - \frac{d_i^2}{d_i^2 + \lambda}\right)}_{\text{d}(\lambda)}\right) + \text{bias}(\lambda)^2.$ Thus if it is possible to choose

λ

$\lambda$ so small that the squared bias can be ignored we can try to estimate

σ^{2}

$\sigma^2$ as

{\hat{σ}}^{2} = \frac{1}{p - d (λ)} | | Z - \hat{Z} | |^{2} .

$\hat{\sigma}^2 = \frac{1}{p-\text{d}(\lambda)} ||Z - \hat{Z}||^2.$ If this will work depends a lot on

X

$X$ .

For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.

— NRH
source

Define $β$ as in the question and $β(λ,K)=[(X^TX)_{KK}+λI]^{−1}(X^TY)_K$ for various parameters $\lambda$ and sets $K$ of sample labels. Then $e(λ,K):=\|Xβ(λ,K)-Y\|^2-\|Xβ-Y\|^2$ is computable since the unknown $\|Y\|^2$ drops out when expanding both norms.

This leads to the following algorithm:

Compute the $e(λ,K)$ for some choices of the training set $K$ .
Plot the results as a function of $\lambda$ .
Accept a value of $\lambda$ where the plot is flattest.
Use $β^*=[X^TX+λI]^{−1}X^TY$ as the final estimate.

— Arnold Neumaier
source

I'm guessing "where the plot is flattest" will be at

λ

$\lambda$ very small, like roughly 0 :)

— jbowman

@jbowman: Cela ne se produira que si le problème est bien conditionné et ne nécessite aucune régularisation, alors

λ = 0

$\lambda=0$ est en effet suffisant. Dans le cas mal conditionné, la prédiction des éléments extérieurs

K

$K$ sera pauvre en raison du sur-ajustement, et

e (λ, K)

$e(\lambda,K)$ sera donc grand.

— Arnold Neumaier

@ArnoldNeumaier:

(X^{T} Y)_{K}

$(X^TY)_K$ n'est pas calculable. Nous ne connaissons que la corrélation avec chaque prédicteur.

(X^{T} Y)

$(X^TY)$ est dans le "domaine prédicteur", pas dans le "domaine Y" (si N est la taille de l'échantillon et p le nombre de prédicteurs, nous n'avons que p valeurs, une pour chaque prédicteur).

— Jag

@Jag: Then there is not enough information for selecting

λ

$\lambda$ . But

X^{T} Y

$X^TY$ must have been collected somehow. If during its collection you partition the sample into

k

$k$ batches and assemble the

X^{T} Y

$X^TY$ separately for each batch then one can reserve one batch each for cross validation.

— Arnold Neumaier

@ArnoldNeumaier:

X^{T} Y

$X^TY$ are externally given, don't collected.

— Jag