La question semble demander une démonstration que la régression de crête réduit les estimations des coefficients vers zéro, en utilisant une décomposition spectrale. La décomposition spectrale peut être comprise comme une conséquence facile de la décomposition en valeurs singulières (SVD). Par conséquent, ce message commence par SVD. Il l'explique en termes simples et l'illustre ensuite avec des applications importantes. Ensuite, il fournit la démonstration demandée (algébrique). (L'algèbre, bien sûr, est identique à la démonstration géométrique; elle est simplement rédigée dans une langue différente.)
La source originale de cette réponse se trouve dans mes notes de cours de régression . Cette version corrige quelques erreurs mineures.
Qu'est-ce que le SVD
Toute matrice , avec , peut s'écrire oùX p ≤ n X = U D V ′n × pXp ≤ n
X= UD V′
n × pU est une matrice .n × p
- Les colonnes de ont une longueur de .1U1
- Les colonnes de sont mutuellement orthogonales.U
- Ils sont appelés les composantes principales de .X
p × pV est une matrice .p × p
- Les colonnes de ont une longueur de .1V1
- Les colonnes de sont orthogonales entre elles.V
- Cela fait de une rotation de .R pVRp
p × pré est une matrice diagonale .p × p
- Les éléments diagonaux ne sont pas négatifs. Ce sont les valeurs singulières de . Xré11, d22, … , Dp pX
- Si nous le souhaitons, nous pouvons les commander du plus grand au plus petit.
Les critères (1) et (2) affirment que et sont des matrices orthonormales . Ils peuvent être parfaitement résumés par les conditionsVUV
U′U= 1p, V ′V= 1p.
En conséquence (que représente une rotation), également. Ceci sera utilisé dans la dérivation Ridge Regression ci-dessous.V V ′ = 1 pVVV′= 1p
Ce qu'il fait pour nous
Cela peut simplifier les formules. Cela fonctionne à la fois algébriquement et conceptuellement. Voici quelques exemples.
Les équations normales
Considérons la régression où, comme d'habitude, les ε sont indépendants et identiquement distribués selon une loi qui a une espérance nulle et une variance finie σ 2 . La solution des moindres carrés via la normale équations est β = ( X ' X ) - 1 X ' y . L'application de la SVD et la simplification du désordre algébrique résultant (ce qui est facile) fournit un bon aperçu:y= Xβ+ εεσ2
β^= ( X′X)- 1X′y.
( X′X)- 1X′= ( ( UD V′)′( UD V′) )- 1( UD V′)′= ( VD U′UD V′)- 1( VD U′) = Vré- 2V′VD U′= Vré- 1U′.
La seule différence entre cela et est que les inverses des éléments de D sont utilisées! En d'autres termes, "l'équation" y = X β est résolue en "inversant" X : cette pseudo-inversion annule les rotations U et V ' (simplement en les transposant) et annule la multiplication (représentée par D ) séparément dans chaque principe direction.X′= VD U′réy= XβXUV′ré
Pour référence ultérieure, notez que « mis en rotation » estimations β sont des combinaisons linéaires de réponses « rotation » U " de y . Les coefficients sont des inverses des éléments diagonaux (positifs) de D , égaux à d - 1 i i .V′β^U′yréré- 1je je
Covariance des estimations de coefficient
Rappelons que la covariance des estimations est En utilisant le SVD, cela devient σ 2 ( V D 2 V ′ ) - 1 = σ 2 V D - 2 V ′ . En d'autres termes, la covariance agit comme celle de k variables orthogonales , chacune avec des variances d 2 i i
Cov ( β^) = σ2( X′X)- 1.
σ2( Vré2V′)- 1= σ2Vré- 2V′.
k ré2je je, qui ont été tournés dans
.
Rk
La matrice Hat
H=X( X′X)- 1X′.
H= ( UD V′) ( Vré- 1U′) = UU′.
Analyse propre (décomposition spectrale)
X′X=VD U′UD V′= Vré2V′
XX′=UD V′VD U′= Uré2U′,
- X′XXX′
- VX′X
- UXX′
La SVD peut diagnostiquer et résoudre les problèmes de colinéarité.
Rapprocher les régresseurs
UD V′Uy
Régression de crête
XyXλ > 0
β^R= ( X′X+ λ )- 1X′y= ( Vré2V′+ λ1p)- 1VD U′y= ( Vré2V′+ λ VV′)- 1VD U′y= ( V( D2+ λ ) V′)- 1VD U′y= V( D2+ λ )- 1V′VD U′y= V( D2+ λ )- 1D U′y.
β^ré- 1= D- 2ré( D2+ λ )- 1réré2/ ( D2+ λ )λ > 0
V′β^RU′yré- 1je jeré2je je/ ( d2je je+ λ )λβ^R
ré- 1je je