+1 sur l'illustration de Glen_b et les commentaires de statistiques sur l'estimateur Ridge. Je voudrais juste ajouter un pov sur une régression de type purement mathématique (algèbre linéaire) qui répond aux questions 1) et 2) des points opérationnels.
Notons d’abord que est une matrice semi-définie positive symétrique - fois la matrice de covariance de l’échantillon. Par conséquent, il a la décomposition propreX′Xp×pn
X′X=VDV′,D=⎡⎣⎢⎢d1⋱dp⎤⎦⎥⎥,di≥0
Or, l’inversion de la matrice correspondant à l’inversion des valeurs propres, l’estimateur OLS requiert (notez que ). Évidemment, cela ne fonctionne que si toutes les valeurs propres sont strictement supérieures à zéro, . Pour c'est impossible; pour c’est en général vrai - c’est là que nous nous intéressons habituellement à la multicolinéarité .(X′X)−1=VD−1V′V′=V−1di>0p≫nn≫p
En tant que statisticiens, nous souhaitons également savoir comment de petites perturbations dans les données modifient les estimations. Il est clair qu’un petit changement dans un entraîne une énorme variation dans si est très petit.Xdi1/didi
Donc, ce que fait la régression de Ridge est de déplacer toutes les valeurs propres plus loin de zéro
X′X+λIp=VDV′+λIp=VDV′+λVV′=V(D+λIp)V′,
qui a maintenant les valeurs propres . C’est pourquoi le choix d’un paramètre de pénalité positif rend la matrice inversible, même dans le cas . Pour la régression de Ridge, une petite variation dans les données n’a plus l’effet extrêmement instable qu’elle a sur l’inversion de matrice.
di+λ≥λ≥0p≫nX
La stabilité numérique est liée au retour à zéro car elles sont toutes deux une conséquence de l'ajout d'une constante positive aux valeurs propres: elle la rend plus stable car une petite perturbation dans ne modifie pas trop l'inverse; il le réduit près de puisque le terme est multiplié par ce qui est plus proche de zéro que la solution de MCO à valeurs propres inverses .X0V−1X′y1/(di+λ)1/d