Ceci concerne la variance
OLS fournit ce qu'on appelle le meilleur estimateur linéaire non biaisé (BLEU) . Cela signifie que si vous prenez un autre estimateur sans biais, il est lié à une variance plus élevée que la solution OLS. Alors pourquoi diable devrions-nous envisager autre chose que cela?
Maintenant, l'astuce avec la régularisation, comme le lasso ou la crête, consiste à ajouter un biais à son tour pour essayer de réduire la variance. Parce que quand vous estimez votre erreur de prédiction, il est une combinaison de trois choses :
E [ ( y- f^( x ) )2] = Biais [ f^( x ) ) ]2+ Var [ f^( x ) ) ] + σ2
La dernière partie est l'erreur irréductible, nous n'avons donc aucun contrôle sur cela. En utilisant la solution OLS, le terme de biais est nul. Mais il se pourrait que le deuxième mandat soit important. Ce pourrait être une bonne idée (
si nous voulons de bonnes prévisions ) d'ajouter un biais et, espérons-le, de réduire la variance.
Quel est donc ce ? Il s'agit de la variance introduite dans les estimations des paramètres de votre modèle. Le modèle linéaire a la forme
y = X β + ϵ ,Var [ f^( x ) ) ]
Pour obtenir la solution OLS, nous résolvons le problème de minimisation
arg min β | | y - X β | | 2
Ceci permetobtenir la solution
β OLS = ( X T X ) - 1 X T y
Le problème de minimisation pourrégression d'arête est similaire:
arg min β | | y - X β | |
y = X β+ ϵ ,ϵ ∼ N( 0 , σ2je)
argminβ| | y - X β| |2
β^OLS= ( XTX )- 1XTy
Maintenantla solution devient
β Ridge = ( X T X + λ I ) - 1 X T y
Doncnous ajoutons cette
λ I (appelé la crête) sur la diagonale de la matrice queon inverti. L'effet que cela a sur la matrice
X T X est qu'il "
éloigne" le déterminant de la matrice de zéro. Ainsi, lorsque vous l'inversez, vous n'obtenez pas d'énormes valeurs propres. Mais cela conduit à un autre fait intéressant, à savoir que la variance des estimations des paramètres devient plus faible.
argminβ| | y - X β| |2+ λ | | β| |2λ > 0
β^crête= ( XTX +λI)- 1XTy
λ IXTX
Je ne sais pas si je peux fournir une réponse plus claire que celle-ci. Tout cela se résume à la matrice de covariance pour les paramètres du modèle et la magnitude des valeurs dans cette matrice de covariance.
J'ai pris l'exemple de la régression de crête, car c'est beaucoup plus facile à traiter. Le lasso est beaucoup plus difficile et il y a toujours des recherches en cours sur ce sujet.
Ces diapositives fournissent plus d'informations et ce blog contient également des informations pertinentes.
EDIT: Qu'est-ce que je veux dire qu'en ajoutant la crête, le déterminant est " retiré " de zéro?
XTX
det ( XTX -tI) = 0
tdet ( XTX +λI- t je) = 0
det ( XTX -(t-λ)I) = 0
( t - λ )tjetje+ λλ
Voici un code R pour illustrer cela:
# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)
# Make a symmetric matrix
B <- A+t(A)
# Calculate eigenvalues
eigen(B)
# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))
Ce qui donne les résultats:
> eigen(B)
$values
[1] 37.368634 6.952718 -8.321352
> eigen(B+3*diag(3))
$values
[1] 40.368634 9.952718 -5.321352
Ainsi, toutes les valeurs propres sont décalées de 3 exactement.
Vous pouvez également le prouver en général en utilisant le théorème du cercle de Gershgorin . Là, les centres des cercles contenant les valeurs propres sont les éléments diagonaux. Vous pouvez toujours ajouter "assez" à l'élément diagonal pour faire tous les cercles dans le demi-plan réel positif. Ce résultat est plus général et n'est pas nécessaire pour cela.