Preuve que les coefficients dans un modèle OLS suivent une distribution t avec (nk) degrés de liberté


29

Contexte

Supposons que nous ayons un modèle des moindres carrés ordinaires où nous avons coefficients dans notre modèle de régression, k

y=Xβ+ϵ

où est un vecteur de coefficients, est la matrice de conception définie parβ(k×1)X

X=(1x11x12x1(k1)1x211xn1xn(k1))
et les erreurs sont IID normal,
ϵN(0,σ2I).

Nous minimisons la somme des erreurs au carré en définissant nos estimations pour à β

β^=(XTX)1XTy.

Un estimateur non biaisé de est où \ mathbf {\ chapeau {y}} \ equiv \ mathbf {X} \ mathbf {\ chapeau {\ beta}} ( réf ).σ2

s2=yy^2np
y^Xβ^

La covariance de β^ est donnée par

Cov(β^)=σ2C
C(XTX)1 ( réf ).

Question

Comment puis-je prouver que pour β^i ,

β^iβisβ^itnk
tnk est un distribution t avec (nk) degrés de liberté, et l'erreur standard de β^i est estimée par sβ^i=scii .

Mes tentatives

Je sais que pour variables aléatoires échantillonnées à partir de , vous pouvez montrer que en réécrivant le LHS comme et en réalisant que le numérateur est une distribution normale standard, et que le dénominateur est la racine carrée d'une distribution du chi carré avec df = (n-1) et divisé par (n- 1) ( réf ). Et donc il suit une t-distribution avec df = (n-1) ( ref ).nxN(μ,σ2)

x¯μs/ntn1
(x¯μσ/n)s2/σ2

Je n'ai pas pu étendre cette preuve à ma question ...

Des idées? Je suis au courant de cette question , mais ils ne le prouvent pas explicitement, ils donnent juste une règle empirique, en disant "chaque prédicteur vous coûte un degré de liberté".


Étant donné que est une combinaison linéaire de variables conjointement normales, il a une distribution normale. Par conséquent , tous que vous devez faire sont (1) établissent que ; (2) montrent que est un estimateur non biaisé de ; et (3) démontrer que les degrés de liberté dans sont . Ce dernier a été prouvé sur ce site à plusieurs endroits, comme stats.stackexchange.com/a/16931 . Je soupçonne que vous savez déjà comment faire (1) et (2). β^iE(β^i)=βisβ^i2Var(β^i)sβ^ink
whuber

Réponses:


32

Depuis nous savons que et ainsi nous savons que pour chaque composant de , où est l' élément diagonal de . Ainsi, nous savons que

β^=(XTX)1XTY=(XTX)1XT(Xβ+ε)=β+(XTX)1XTε
β^βN(0,σ2(XTX)1)
kβ^
β^kβkN(0,σ2Skk)
Skkkth(XTX)1
zk=β^kβkσ2SkkN(0,1).

Prenez note de l'énoncé du théorème pour la distribution d'une forme quadratique idempotente dans un vecteur normal standard (théorème B.8 de Greene):

Si et est symétrique et idempotent, alors est distribué où est le rang de .xN(0,I)AxTAxχν2νA

Soit le vecteur résiduel de régression et soit qui est la matrice maker résiduelle (ie ) . Il est facile de vérifier que est symétrique et idempotent .ε^

M=InX(XTX)1XT,
My=ε^M

Soit un estimateur pour .

s2=ε^Tε^np
σ2

Nous devons ensuite faire de l'algèbre linéaire. Notez ces trois propriétés d'algèbre linéaire:

  • Le rang d'une matrice idempotente est sa trace.
  • Tr(A1+A2)=Tr(A1)+Tr(A2)
  • Tr(A1A2)=Tr(A2A1) si est et est ( cette propriété est essentielle pour que ce qui suit fonctionne )A1n1×n2A2n2×n1

Donc

rank(M)=Tr(M)=Tr(InX(XTX)1XT)=Tr(In)Tr(X(XTX)1XT))=Tr(In)Tr((XTX)1XTX))=Tr(In)Tr(Ip)=np

Puis

V=(np)s2σ2=ε^Tε^σ2=(εσ)TM(εσ).

En appliquant le théorème pour la distribution d'une forme quadratique idempotente dans un vecteur normal standard (indiqué ci-dessus), nous savons que .Vχnp2

Puisque vous supposez que est normalement distribué, alors est indépendant de , et puisque est une fonction de , alors est également indépendant de . Ainsi, et sont indépendants l'un de l'autre.εβ^ε^s2ε^s2β^zkV

Ensuite, est le rapport d'une distribution normale standard avec la racine carrée d'une distribution chi carré avec les mêmes degrés de liberté (ie ), qui est une caractérisation de la distribution . Par conséquent, la statistique a une distribution avec degrés de liberté.

tk=zkV/(np)
npttktnp

Il peut ensuite être manipulé algébriquement sous une forme plus familière.

tk=β^kβkσ2Skk(np)s2σ2/(np)=β^kβkSkks2=β^kβks2Skk=β^kβkse(β^k)

Également une question secondaire: pour le Theorem for the Distribution of an Idempotent Quadratic Form in a Standard Normal Vector, n'avons-nous pas aussi besoin que soit symétrique? Malheureusement, je n'ai pas Greene, donc je ne peux pas voir la preuve même si j'ai vu que Wikipedia avait la même forme que vous . Cependant, un contre-exemple semble être la matrice idempotente qui conduit à qui n'est pas Chi-Squared car elle pourrait prendre des valeurs négatives. ..AA=(1100)x12+x1x2
Garrett

1
@ Garrett Mes excuses, doit être à la fois symétrique et idempotent. Une preuve est fournie comme Théorème 3 dans ce document: www2.econ.iastate.edu/classes/econ671/hallam/documents/… Heureusement, est symétrique aussi bien qu'idempotent. AM
Blue Marker du

1
A est simplement une représentation matricielle d'une forme quadratique. Chaque forme quadratique a une représentation symétrique, donc l'exigence de symétrie de est implicite dans l'énoncé du théorème. (Les gens n'utilisent pas de matrices asymétriques pour représenter les formes quadratiques.) Ainsi, la forme quadratique est uniquement représentée par la matrice qui n'est pas idempotent. A(x1,x2)x12+x1x2A=(11/21/20)
whuber

1
Pourquoi implique-t-il que est indépendant de ? Pas tout à fait là-bas. ϵN(0,σ2)β^ϵ^
Glassjawed

1
@Glassjawed Étant donné que et sont tous les deux normalement distribués, la non-corrélation implique l'indépendance. Utilisation des expressions et de ci-dessus, nous pouvons montrer que . β^ε^β^=β+(XX)1Xεε^=MεCov(β^,ε^)=0p×n
rzch
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.