C'est une question intéressante. Étonnamment, il est possible de faire quelque chose sous certaines hypothèses, mais il y a une perte potentielle d'informations sur la variance résiduelle. Cela dépend de X combien est perdu.
Considérons la décomposition de valeurs singulières suivante de X avec U une matrice n × p avec des colonnes orthonormées, D une matrice diagonale avec des valeurs singulières positives d 1 ≥ d 2 ≥ . . X=UDVtXUn×pD dans la matrice diagonale et V a p × p orthogonale. Alors les colonnes de U et
Z = U t Yd1≥d2≥...≥dp>0Vp×pU forment une base orthonormée pour l'espace de colonne de X
est le vecteur de coefficients pour la projection de Y sur cet espace de colonne lorsqu'il est développé dans labase de la colonne U. D'après la formule, nous voyons que Z est calculable à partir de la connaissance de X et X t
Z=UtY=D−1VtVDUtY=D−1VtXtY
YUZX uniquement.
XtY
Etant donné que la prédiction de la régression de la crête d'une donnée peut être calculé en tant que
Y = X ( X t X + λ I ) - 1 X t Y = U D ( D 2 + λ I ) - 1 D U t Y = U D ( D 2 + λ I ) - 1 D Z
nous voyons que les coefficients pour le prédicteur de régression de crête dans leλ
Oui^= X( XtX+ λ I)- 1XtOui= UD ( D2+ λ I)- 1D UtOui= UD ( D2+ λ I)- 1D Z
base -column sont
Z = D (U
Maintenant, nous faisons l'hypothèse distributionnelle que
Y a unemoyenne à
n dimensions
ξ et une matrice de covariance
σ 2 I n . Alors
Z a unemoyenne
p- dimensionnelle
U t ξ et une matrice de covariance
σ 2 I p . Si nous imaginons un
Y New indépendant
Z^= D ( D2+ λ I)- 1D Z.
Ouinξσ2jenZpUtξσ2jepOuiNouveau avec la même distribution que
(tout conditionnellement sur
X à partir de là) le
Z correspondant
OuiX a la même distribution que
Zet est indépendant et
E | | Y Nouveau - Y | | 2ZNouveau= UtOuiNouveauZ
Voici la troisième égalité suit par orthogonalité de
YNouveau-UZNouveauet
UZNouvelle-U Z et le quatrième par le fait que
Uacolonnes orthonormales. La quantité
Err0est une erreur sur laquelle nous ne pouvons obtenir aucune information, mais elle ne dépend pas de
λE| | OuiNouveau- Oui^||2===E||YNew−UZNew+UZNew−UZ^||2E||YNew−UZNew||2+E||UZNew−UZ^||2Err0+E||ZNew−Z^||2.
YNew−UZNewUZNew−UZ^UErr0λSoit. Pour minimiser l'erreur de prédiction sur le côté gauche, nous devons minimiser le deuxième terme sur le côté droit.
Par un calcul standard
Icidf(λ)est connu comme les degrés de liberté effectifs pour la régression de crête avec le paramètreλ. Un estimateur non biaisé deE| | Z-Z| | 2est
err(λ)=| | Z-Z| | 2=p∑i=1(1
E||ZNew−Z^||2==E||Z−Z^||2+2∑i=1pcov(Zi,Z^i)E||Z−Z^||2+2σ2∑i=1pd2id2i+λdf(λ).
df(λ)λE||Z−Z^||2err(λ)=||Z−Z^||2=∑i=1p(1−d2id2i+λ)2Z2i.
err(λ)+2σ2df(λ)
E||ZNew−Z^||2σ2σ2σ2
σ2
E||Z−Z^||2=σ2⎛⎝⎜⎜⎜⎜⎜p−∑i=1pd2id2i+λ(2−d2id2i+λ)d(λ)⎞⎠⎟⎟⎟⎟⎟+bias(λ)2.
Thus if it is possible to choose
λ so small that the squared bias can be ignored we can try to estimate
σ2 as
σ^2=1p−d(λ)||Z−Z^||2.
If this will work depends a lot on
X.
For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.