Construisons sur ce que nous savons, à savoir que chaque fois que la matrice de modèle est , la réponse -vector est et le paramètre -vector est , la fonction objectifX nn×pXnp βypβ
f(β)=(y−Xβ)′(y−Xβ)
(qui est la somme des carrés des résidus) est minimisé quand résout les équations normalesβ
(X′X)β=X′y.
La régression de crête ajoute un autre terme à la fonction objectif (généralement après normalisation de toutes les variables afin de les rendre communes), demandant de minimiser
(y−Xβ)′(y−Xβ)+λβ′β
pour une constante non-négative . C'est la somme des carrés des résidus plus un multiple de la somme des carrés des coefficients eux-mêmes (ce qui rend évident qu'il a un minimum global). Parce que , il a une racine carrée positive .λ ≥ 0λλ≥0ν2=λ
Considérons la matrice augmentée de lignes correspondant à fois la matrice d'identité :νXνIp×pI
X∗=(XνI)
Lorsque le vecteur est étendu de manière similaire avec zéros à la fin de , le produit matriciel de la fonction objectif ajoute termes supplémentaires de la forme à l'objectif initial. Par conséquentp y ∗ p ( 0 - ν β i ) 2 = λ βypy∗p(0−νβi)2=λβ2i
(y∗−X∗β)′(y∗−X∗β)=(y−Xβ)′(y−Xβ)+λβ′β.
A partir de la forme de l’expression de gauche, il est immédiat que les équations de Normal soient
(X′∗X∗)β=X′∗y∗.
Comme nous avons joint des zéros à la fin de , le côté droit est identique à . Du côté gauche est ajouté à l'original . Par conséquent, les nouvelles équations normales simplifientX ′ y ν 2 I = λyX′yX ' Xν2I=λIX′X
(X′X+λI)β=X′y.
En plus d'être conceptuellement économique - aucune nouvelle manipulation n'est nécessaire pour obtenir ce résultat - il est également économique en calcul: votre logiciel de calcul des moindres carrés ordinaires effectuera également une régression de crête sans aucune modification. (Il peut néanmoins être utile dans les gros problèmes d’utiliser un logiciel conçu à cet effet, car il exploitera la structure particulière de pour obtenir des résultats efficaces pour un intervalle de très espacé , ce qui vous permettra d’explorer comment les réponses varient. avec .)X∗λλλ
Une autre beauté de cette façon de voir les choses est de savoir comment cela peut nous aider à comprendre la régression de crête. Quand on veut vraiment comprendre la régression, il est presque toujours utile d’y penser géométriquement: les colonnes de constituent des vecteurs dans un espace vectoriel réel de dimension . En joignant à , en les prolongeant ainsi de vecteurs à vecteurs, nous intégrons dans un espace plus grand en incluant "imaginaire", directions orthogonales. La première colonne dep n ν I X n n + p R n R n + p p X ν p p th ν ν p ν 0XpnνIXnn+pRnRn+ppXreçoit un petit composant imaginaire de taille , l’allongeant ainsi et le déplaçant hors de l’espace généré par les colonnes originales . Le deuxième, troisième, ..., colonnes sont également rallongé et déplacé hors de l'espace d' origine du même montant - mais dans différentes directions nouvelles. Par conséquent, toute colinéarité présente dans les colonnes d'origine sera immédiatement résolue. De plus, plus devient grand, plus ces nouveaux vecteurs se rapprochent deνppthννpdirections imaginaires: elles deviennent de plus en plus orthonormées. En conséquence, la solution des équations de Normal deviendra immédiatement possible et deviendra rapidement numériquement stable à mesure que augmente à partir de .ν0
Cette description du processus suggère certaines approches novatrices et créatives pour résoudre les problèmes que Ridge Regression a été conçu pour traiter. Par exemple, en utilisant quelque moyen que ce soit (comme la décomposition de la variance décrite par Belsley, Kuh et Welsch dans leur livre de 1980 sur Regression Diagnostics , chapitre 3), vous pourrez peut-être identifier des sous-groupes de colonnes presque colinéaires de , où chaque sous-groupe est presque orthogonal à un autre. Il vous suffit d'adjoindre autant de lignes à (et de zéros à ) qu'il y a d'éléments dans le groupe le plus grand, en dédiant une nouvelle dimension "imaginaire" pour déplacer chaque élément d'un groupe loin de ses frères et soeurs: vous n'avez pas besoin de imaginaire dimensions pour le faire.X y pXXyp