Nous pouvons le prouver pour le cas plus général des variables en utilisant la "matrice chapeau" et certaines de ses propriétés utiles. Ces résultats sont généralement beaucoup plus difficiles à énoncer en termes non matriciels en raison de l'utilisation de la décomposition spectrale.p
Maintenant dans la version matricielle des moindres carrés, la matrice chapeau est où a lignes et colonnes (colonne de celles pour ). Supposons que le classement complet des colonnes soit pratique - sinon, vous pouvez remplacer par le classement des colonnes de dans la suite. Nous pouvons écrire les valeurs ajustées comme ou en notation matricielle . En utilisant cela, nous pouvons écrire la somme des carrés comme:H=X(XTX)−1XTXnp+1β0p+1XY^i=∑nj=1HijYjY^=HY
∑i=1(Y−Yi^)2σ2=(Y−Y^)T(Y−Y^)σ2=(Y−HY)T(Y−HY)σ2
=YT(In−H)Yσ2
Où est une matrice d'identité d'ordre . La dernière étape découle du fait que est une matrice idépotente, carInnH
H2=[X(XTX)−1XT][X(XTX)−1XT]=X(XTX)−1XT=H=HHT=HTH
Maintenant, une propriété intéressante des matrices idépotentes est que toutes leurs valeurs propres doivent être égales à zéro ou à un. Soit un vecteur propre normalisé de de valeur propre , nous pouvons le prouver comme suit:eHl
He=le⟹H(He)=H(le)
LHS=H2e=He=leRHS=lHe=l2e
⟹le=l2e⟹l=0 or 1
(notez que ne peut pas être nul car il doit satisfaire ) Maintenant parce que est idépotent, est aussi, careeTe=1HIn−H
(In−H)(In−H)=I−IH−HI+H2=In−H
Nous avons également la propriété que la somme des valeurs propres est égale à la trace de la matrice, et
tr(In−H)=tr(In)−tr(H)=n−tr(X(XTX)−1XT)=n−tr((XTX)−1XTX)
=n−tr(Ip+1)=n−p−1
Par conséquent doit avoir valeurs propres égaux à et valeurs propres égal à .I−Hn−p−11p+10
Maintenant nous pouvons utiliser la décomposition spectrale de où et est orthogonal (car est symétrique). Une autre propriété qui est utile est que . Cela permet de réduire la matriceI−H=ADATD=(In−p−10[p+1]×[n−p−1]0[n−p−1]×[p+1]0[p+1]×[p+1])AI−HHX=XA
HX=X⟹(I−H)X=0⟹ADATX=0⟹DATX=0
⟹(ATX)ij=0i=1,…,n−p−1j=1,…,p+1
et nous obtenons:
∑i=1(Y−Yi^)2σ2=YTADATYσ2=∑n−p−1i=1(ATY)2iσ2
Maintenant, sous le modèle, nous avons et en utilisant la théorie normale standard, nous avons montrant que les composants de sont indépendants. En utilisant maintenant le résultat utile, nous avons cela pour . La distribution du chi carré avec degrés de liberté pour la somme des erreurs quadratiques suit immédiatement.Y∼N(Xβ,σ2I)ATY∼N(ATXβ,σ2ATA)∼N(ATXβ,σ2I)ATY(ATY)i∼N(0,σ2)i=1,…,n−p−1n−p−1