Il s'agit du problème 3.23 à la page 97 de Hastie et al., Elements of Statistical Learning , 2nd. ed. (5ème impression) .
La clé de ce problème est une bonne compréhension des moindres carrés ordinaires (c.-à-d. La régression linéaire), en particulier l'orthogonalité des valeurs ajustées et des résidus.
Lemme d'orthogonalité : Soit la matrice de conception , le vecteur de réponse et les (vrais) paramètres. En supposant que est de rang complet (ce que nous ferons tout au long), les estimations OLS de sont . Les valeurs ajustées sont . Alors . C'est-à-dire que les valeurs ajustées sont orthogonales aux résidus. Cela suit puisque .n × p y β X β β = ( X T X ) - 1 X T y y = X ( X T X ) - 1 X T y ⟨ y , y - y y ) = X T y -Xn×pyβXββ^=(XTX)−1XTyy^=X(XTX)−1XTyX T ( y -⟨y^,y−y^⟩=y^T(y−y^)=0XT(y−y^)=XTy−XTX(XTX)−1XTy=XTy−XTy=0
Maintenant, nous être un vecteur de colonne telle que est la ème colonne de . Les conditions supposées sont:x j j XxjxjjX
- j11N⟨xj,xj⟩=1 pour chaque , ,j1N⟨y,y⟩=1
- 1pp1N⟨xj,1p⟩=1N⟨y,1p⟩=0 où désigne un vecteur de ceux de longueur , et1pp
- j1N|⟨xj,y⟩|=λ pour tout .j
Notez qu'en particulier , la dernière déclaration du lemme d'orthogonalité est identique à pour tout .j⟨xj,y−y^⟩=0j
Les corrélations sont liées
Maintenant, . Donc,
et le deuxième terme à droite est zéro par le lemme d'orthogonalité , donc
comme vous le souhaitez. La valeur absolue des corrélations est juste
⟨ x j , y - u ( a ) ⟩ = ⟨ x j , ( 1 - α ) y + α y - αu(α)=αXβ^=αy^1
⟨xj,y−u(a)⟩=⟨xj,(1−α)y+αy−αy^⟩=(1−α)⟨xj,y⟩+α⟨xj,y−y^⟩,
ρ j(α)= 11N|⟨xj,y−u(α)⟩|=(1−α)λ,
ρ^j(α)=1N|⟨xj,y−u(α)⟩|1N⟨xj,xj⟩−−−−−−−−√1N⟨y−u(α),y−u(α)⟩−−−−−−−−−−−−−−−−−−√=(1−α)λ1N⟨y−u(α),y−u(α)⟩−−−−−−−−−−−−−−−−−−√
Remarque : Le côté droit ci-dessus est indépendant de et le numérateur est exactement le même que la covariance puisque nous avons supposé que tous les et sont centrés (donc, en particulier, aucune soustraction de la moyenne n'est nécessaire ).x j yjxjy
À quoi ça sert? À mesure que augmente, le vecteur de réponse est modifié de sorte qu'il se rapproche de celui de la solution des moindres carrés ( restreinte! ) Obtenue en incorporant uniquement les premiers paramètres dans le modèle. Cela modifie simultanément les paramètres estimés car ils sont de simples produits internes des prédicteurs avec le vecteur de réponse (modifié). La modification prend cependant une forme spéciale. Il conserve la (magnitude de) les corrélations entre les prédicteurs et la réponse modifiée tout au long du processus (même si la valeur de la corrélation change). Pensez à ce que cela fait géométriquement et vous comprendrez le nom de la procédure!pαp
Forme explicite de la corrélation (absolue)
Concentrons-nous sur le terme au dénominateur, car le numérateur est déjà sous la forme requise. Nous avons
⟨y−u(α),y−u(α)⟩=⟨(1−α)y+αy−u(α),(1−α)y+αy−u(α)⟩.
En substituant à et en utilisant la linéarité du produit intérieur, on obtientu(α)=αy^
⟨y−u(α),y−u(α)⟩=(1−α)2⟨y,y⟩+2α(1−α)⟨y,y−y^⟩+α2⟨y−y^,y−y^⟩.
Observe ceci
- ⟨y,y⟩=N par hypothèse,
- ⟨y,y−y^⟩=⟨y−y^,y−y^⟩+⟨y^,y−y^⟩=⟨y−y^,y−y^⟩ , en appliquant (encore une fois) le lemme d'orthogonalité au deuxième terme du milieu; et,
- ⟨y−y^,y−y^⟩=RSS par définition.
En mettant tout cela ensemble, vous remarquerez que nous obtenons
ρ^j(α)=(1−α)λ(1−α)2+α(2−α)NRSS−−−−−−−−−−−−−−−−−√=(1−α)λ(1−α)2(1−RSSN)+1NRSS−−−−−−−−−−−−−−−−−−−−−√
Pour conclure, et il est donc clair que diminue de façon monotone dans et as . ρ j(α)α ρ j(α)↓0α↑une1−RSSN=1N(⟨y,y,⟩−⟨y−y^,y−y^⟩)≥0ρ^j(α)αρ^j(α)↓0α↑1
Épilogue : Concentrez-vous sur les idées ici. Il n'y en a vraiment qu'un. Le lemme d'orthogonalité fait presque tout le travail pour nous. Le reste n'est que l'algèbre, la notation et la possibilité de mettre ces deux derniers au travail.