Voici une illustration géométrique de ce qui se passe avec la crête négative.
Je vais envisager des estimateurs de la forme β λ = ( X ⊤ X + λ I ) - 1 X ⊤ y provenant de la fonction de perte L λ = ‖ y - X β ‖ 2 + λ ‖ β ‖ 2 . Voici une illustration assez standard de ce qui se passe dans un cas bidimensionnel avec λ ∈ [ 0 , ∞ )
β^λ= ( X⊤X +λ I )- 1X⊤y
Lλ= ∥ y - X β ∥2+ λ ∥ β ∥2.
λ ∈ [ 0 , ∞ ). Zero lambda correspond à la solution OLS, infinite lambda réduit le beta estimé à zéro:
λ ∈ ( - ∞ , - s2max)sm a xXβ^λ- s2max( X⊤X +λ I )Xβ^λ pointant dans la direction de PC1 mais avec une valeur absolue croissante à l'infini.
Ce qui est vraiment sympa, c'est qu'on peut le dessiner sur la même figure de la même manière: les bétas sont donnés par des points où les cercles touchent les ellipses de l'intérieur :
Lorsque , une logique similaire s'applique, permettant de continuer le chemin de crête de l'autre côté de l'estimateur OLS. Maintenant, les cercles touchent les ellipses de l'extérieur. la limite, les bêtas approchent de la direction PC2 (mais cela se passe bien en dehors de ce croquis):λ ∈ ( - s2m i n, 0 ]
La plage est en quelque sorte une lacune énergétique : les estimateurs n'y vivent pas sur la même courbe.( - s2m a x, - s2m i n)
MISE À JOUR: Dans les commentaires @MartinL explique que pour la perte n'a pas de minimum mais a un maximum. Et ce maximum est donné par . C'est pourquoi la même construction géométrique avec le toucher cercle / ellipse continue de fonctionner: nous recherchons toujours des points à gradient nul. Lorsque , la perteλ < - s2m a xLλβ^λ- s2m i n< λ ≤ 0Lλβ^λλ > 0
- s2m a x< λ < - s2m i nLλβ^λ
λ ∈ ( - ∞ , - s2max)λ → ∞
λ ∈ ( - s2m i n, 0 ]λ > 0