Je crois que la confusion peut provenir de quelque chose d'un peu plus simple, mais cela offre une belle occasion d'examiner certaines questions connexes.
Notez que le texte ne prétend pas que tous les coefficients de régression peut être calculé via les vecteurs résiduels successifs comme
mais plutôt que seul le dernier , , peut être calculé de cette façon! β i ? = ⟨Y,zi⟩β^iΒ p
β^i=?⟨y,zi⟩∥zi∥2,
β^p
Le schéma d'orthogonalisation successif (une forme d'orthogonalisation de Gram – Schmidt) produit (presque) une paire de matrices et tel que
où est avec des colonnes orthonormées et est triangulaire supérieur. Je dis "presque" puisque l'algorithme ne spécifie que jusqu'aux normes des colonnes, qui ne seront généralement pas une, mais peut être faite pour avoir une norme d'unité en normalisant les colonnes et en faisant un simple ajustement correspondant à la coordonnée matrice .G X = Z GZGZ n × p G = ( g i j ) p × p Z G
X=ZG,
Zn×pG=(gij)p×pZG
En supposant, bien sûr, que a le rang , la solution unique des moindres carrés est le vecteur qui résout le système
X∈Rn×pβ X T X β = X T yp≤nβ^
XTXβ^=XTy.
En substituant et en utilisant (par construction), on obtient
ce qui équivaut à
Z T Z = I G T G β = G T Z T yX=ZGZTZ=IG β = Z T y
GTGβ^=GTZTy,
Gβ^=ZTy.
Maintenant, concentrez-vous sur la dernière ligne du système linéaire. Le seul élément non nul de dans la dernière ligne est . Donc, nous obtenons cela
Il n'est pas difficile de voir (vérifier cela comme une vérification de la compréhension!) Queet donc cela donne la solution. ( Caveat lector : J'ai utilisé déjà normalisé pour avoir la norme d'unité, alors que dans le livre ils ne l' ont pas . Cela explique le fait que le livre a une norme au carré dans le dénominateur, alors que je n'ai que la norme.)g p p g p p β p = ⟨ y , z p ⟩Ggppg p p = ‖ z p ‖ z i
gppβ^p=⟨y,zp⟩.
gpp=∥zp∥zi
Pour trouver tous les coefficients de régression, il faut faire une simple étape de substitution pour résoudre pour l'individu . Par exemple, pour la ligne ,
et ainsi
On peut continuer cette procédure en travaillant "en arrière" de la dernière ligne du système jusqu'à la première, en soustrayant les sommes pondérées des coefficients de régression déjà calculés puis en les divisant par le terme principal pour obtenir .β^i(p−1)
gp−1,p−1β^p−1+gp−1,pβ^p=⟨zp−1,y⟩,
β^p−1=g−1p−1,p−1⟨zp−1,y⟩−g−1p−1,p−1gp−1,pβ^p.
giiβ^i
Le point dans la section en ESL est que nous pourrions réorganiser les colonnes de pour obtenir une nouvelle matrice avec la e colonne d'origine étant maintenant la dernière. Si nous appliquons ensuite la procédure de Gram – Schmidt sur la nouvelle matrice, nous obtenons une nouvelle orthogonalisation telle que la solution du coefficient d'origine est trouvée par la solution simple ci-dessus. Cela nous donne une interprétation du coefficient de régression . Il s'agit d'une régression univariée de sur le vecteur résiduel obtenu en "régressant" les colonnes restantes de la matrice de conception à partir de .XX(r)rβ^rβ^ryxr
Décompositions QR générales
La procédure de Gram-Schmidt est qu'un procédé de production d' une décomposition QR de . En effet, il existe de nombreuses raisons de préférer d'autres approches algorithmiques à la procédure de Gram – Schmidt.X
Les réflexions des ménages et les rotations de Givens fournissent des approches plus stables numériquement à ce problème. Notez que le développement ci-dessus ne change pas dans le cas général de la décomposition QR. A savoir, que
soit toute décomposition QR de . Ensuite, en utilisant exactement le même raisonnement et les mêmes manipulations algébriques que ci-dessus, nous avons que la solution des moindres carrés satisfait
ce qui simplifie en
Puisque est triangulaire supérieur, alors la même technique de rétro-substitution fonctionne. Nous résolvons d'abord pour
X=QR,
Xβ^RTRβ^=RTQTy,
Rβ^=QTy.
Rβ^ppuis remontez de bas en haut. Le choix pour
lequel l' algorithme QR décomposition à utiliser généralement des charnières sur le contrôle de l' instabilité numérique et, dans cette perspective, Gram-Schmidt est généralement pas une approche concurrentielle.
Cette notion de décomposition de en une matrice orthogonale fois quelque chose d'autre peut également être généralisée un peu plus loin pour obtenir une forme très générale pour le vecteur ajusté , mais je crains que cette réponse soit déjà devenue trop longue .Xy^