Preuve que la statistique F suit la distribution F


20

À la lumière de cette question: Preuve que les coefficients dans un modèle OLS suivent une distribution t avec (nk) degrés de liberté

J'aimerais comprendre pourquoi

F=(TSSRSS)/(p1)RSS/(np),

où est le nombre de paramètres du modèle et le nombre d'observations et la variance totale, la variance résiduelle, suit une distribution .pnTSSRSSFp1,np

Je dois admettre que je n'ai même pas essayé de le prouver car je ne saurais pas par où commencer.


Christoph Hanck et Francis ont déjà donné une très bonne réponse. Si vous avez toujours des difficultés à comprendre le test de preuve de f pour la régression linéaire, essayez de consulter teamdable.github.io/techblog/… . J'ai écrit le billet de blog sur la preuve de la lutte pour la régression linéaire. Il est écrit en coréen, mais ce n'est peut-être pas un problème car presque tout est une formule mathématique. J'espère que cela aiderait si vous avez encore des difficultés à comprendre le test de preuve de f pour la régression linéaire.
Taeho Oh

Bien que ce lien puisse répondre à la question, il est préférable d'inclure les parties essentielles de la réponse ici et de fournir le lien de référence. Les réponses de lien uniquement peuvent devenir invalides si la page liée change. - De l'avis
mkt

Réponses:


19

Montrons le résultat pour le cas général dont votre formule pour la statistique de test est un cas spécial. En général, nous devons vérifier que la statistique peut être, selon la caractérisation de la distributionF , écrite comme le rapport de rvs indépendants divisé par leurs degrés de liberté.χ2

Soit avec et connus, non aléatoires et a le rang de colonne complet . Cela représente restrictions linéaires pour (contrairement à la notation OPs) régresseurs, y compris le terme constant. Ainsi, dans l'exemple de @ user1627466, correspond aux restrictions de mise à zéro de tous les coefficients de pente.H0:Rβ=rRrR:k×qqqkp1q=k1

Au vu de , nous avons sorte que (avec étant une "racine carrée de matrice" de , via, par exemple, un Décomposition Cholesky) as Var(β^ols)=σ2(XX)1

R(β^olsβ)N(0,σ2R(XX)1R),
B1/2={R(XX)1R}1/2B1={R(XX)1R}1
n:=B1/2σR(β^olsβ)N(0,Iq),
Var(n)=B1/2σRVar(β^ols)RB1/2σ=B1/2σσ2BB1/2σ=I
où la deuxième ligne utilise la variance de l'OLSE.

Ceci, comme indiqué dans la réponse à laquelle vous liez (voir également ici ), est indépendant de où est l'estimation de la variance d'erreur non biaisée habituelle, avec est la "matrice maker résiduelle" de régressant sur .

d:=(nk)σ^2σ2χnk2,
σ 2=y'MXy/(n-k)MX=I-X(X'X)-1X'Xσ^2=yMXy/(nk)MX=IX(XX)1XX

Donc, comme est une forme quadratique en normales, En particulier, sous , cela se réduit à la statistique nn

nnχq2/q/(n-k)=(β^ols-β)R{R(XX)-1R}-1R(β^ols-β)/qσ^2Fq,n-k.
H0:Rβ=r
F=(Rβ^ols-r){R(XX)-1R}-1(Rβ^ols-r)/qσ^2Fq,n-k.

À titre d' illustration, considérons le cas particulier , , , et . Ensuite, la distance euclidienne au carré de l'OLS estimation à partir de l'origine normalisée par le nombre d'éléments - soulignant que, puisque sont des normales standard au carré et donc , la distribution peut être vue en tant que " moyenne .R=jer=0q=2σ 2 = 1 X ' X = I F = ß ' ols ß ols / 2 = ß 2 ols , 1 + ß 2 ols , 2σ^2=1XX=je

F=β^olsβ^ols/2=β^ols,12+β^ols,222,
ß2ols,2χ21Fχ2β^ols,22χ12Fχ2

Dans le cas où vous préférez une petite simulation (qui n'est bien sûr pas une preuve!), Dans laquelle le nul est testé qu'aucun des régresseurs n'a d' importance - ce qu'ils n'ont en effet pas, de sorte que nous simulons la distribution nulle.k

entrez la description de l'image ici

Nous voyons un très bon accord entre la densité théorique et l'histogramme des statistiques du test de Monte Carlo.

library(lmtest)
n <- 100
reps <- 20000
sloperegs <- 5 # number of slope regressors, q or k-1 (minus the constant) in the above notation
critical.value <- qf(p = .95, df1 = sloperegs, df2 = n-sloperegs-1) 
# for the null that none of the slope regrssors matter

Fstat <- rep(NA,reps)
for (i in 1:reps){
  y <- rnorm(n)
  X <- matrix(rnorm(n*sloperegs), ncol=sloperegs)
  reg <- lm(y~X)
  Fstat[i] <- waldtest(reg, test="F")$F[2] 
}

mean(Fstat>critical.value) # very close to 0.05

hist(Fstat, breaks = 60, col="lightblue", freq = F, xlim=c(0,4))
x <- seq(0,6,by=.1)
lines(x, df(x, df1 = sloperegs, df2 = n-sloperegs-1), lwd=2, col="purple")

Pour voir que les versions des statistiques de test dans la question et la réponse sont bien équivalentes, notez que le null correspond aux restrictions et .R=[0je]r=0

Soit partitionné en fonction des coefficients restreints à zéro sous le nul (dans votre cas, tous sauf la constante, mais la dérivation à suivre est générale). Aussi, laissez soit l'estimation OLS convenablement partitionnée.X=[X1X2]β ols = ( ß ' ols , 1 , ß ' ols , 2 ) 'β^ols=(β^ols,1,β^ols,2)

Ensuite, et le bloc inférieur droit de Maintenant, utilisez les résultats pour les inverses partitionnés pour obtenir où .

Rβ^ols=β^ols,2
R(XX)-1R~,
(XTX)-1=(X1X1X1X2X2X1X2X2)-1(UNE~B~C~~)
˜ D =(X2 X2-X2 X
~=(X2X2-X2X1(X1X1)-1X1X2)-1=(X2MX1X2)-1
MX1=je-X1(X1X1)-1X1

Ainsi, le numérateur de la statistique devient (sans la division par ) Ensuite, rappelons que par le théorème de Frisch-Waugh-Lovell nous pouvons écrire pour que Fq

Fnum=β^ols,2(X2MX1X2)β^ols,2
β^ols,2=(X2MX1X2)-1X2MX1y
Fnum=yMX1X2(X2MX1X2)-1(X2MX1X2)(X2MX1X2)-1X2MX1y=yMX1X2(X2MX1X2)-1X2MX1y

Reste à montrer que ce numérateur est identique à , la différence de somme non restreinte et restreinte de résidus au carré.URSS-RSSR

Ici, est la somme résiduelle des carrés de la régression de sur , c'est-à-dire avec imposé. Dans votre cas particulier, il s'agit simplement de , les résidus d'une régression sur une constante.

RSSR=yMX1y
yX1H0TSS=je(yje-y¯)2

En utilisant à nouveau FWL (qui montre également que les résidus des deux approches sont identiques), nous pouvons écrire (SSR dans votre notation) comme SSR de la régression URSS

MX1ysurMX1X2

Autrement dit,

URSS=yMX1MMX1X2MX1y=yMX1(je-PMX1X2)MX1y=yMX1y-yMX1MX1X2((MX1X2)MX1X2)-1(MX1X2)MX1y=yMX1y-yMX1X2(X2MX1X2)-1X2MX1y

Donc,

RSSR-URSS=yMX1y-(yMX1y-yMX1X2(X2MX1X2)-1X2MX1y)=yMX1X2(X2MX1X2)-1X2MX1y


Merci. Je ne sais pas si c'est considéré comme une prise de main à ce stade, mais comment passez-vous de votre somme de bêtas carrés à une expression qui contient une somme de carrés?
user1627466

1
@ user1627466, j'ai ajouté une dérivation de l'équivalence des deux formules.
Christoph Hanck

4

@ChristophHanck a fourni une réponse très complète, ici je vais ajouter un croquis de preuve sur le cas spécial OP mentionné. Espérons que ce soit aussi plus facile à suivre pour les débutants.

Une variable aléatoire si où et sont indépendants. Ainsi, pour montrer que la statistique distribution , nous pouvons aussi bien montrer que et pour une constante , et qu'ils sont indépendants.OuiF1,2

Oui=X1/1X2/2,
X1χ12X2χ22FFcESSχp-12cRSSχn-p2c

Dans le modèle OLS, nous écrivons où est une matrice , et idéalement . Pour plus de commodité, nous introduisons la matrice de chapeau (note ), et le fabricant résiduel . Les propriétés importantes de et sont qu'elles sont à la fois symétriques et idempotentes. De plus, nous avons et , ceux-ci nous seront utiles plus tard.

y=Xβ+ε,
Xn×pεNn(0,σ2je)H=X(XTX)-1XTy^=HyM=je-HHMtr(H)=pHX=X

Notons la matrice de tous les uns comme , la somme des carrés peut alors être exprimée avec des formes quadratiques:On notera que . On peut vérifier que est idempotent et . Il résulte de ce alors que est idempotent et .J

TSS=yT(je-1nJ)y,RSS=yTMy,ESS=yT(H-1nJ)y.
M+(H-J/n)+J/n=jeJ/nrang(M)+rang(H-J/n)+rang(J/n)=nH-J/nM(H-J/n)=0

Nous pouvons maintenant définir pour montrer que -statistic a -Distribution (recherche théorème de Cochran pour plus). Ici, nous avons besoin de deux faits:FF

  1. Soit . Supposons que est symétrique avec le rang et est idempotent, alors , c'est-à-dire non central avec df et non centralité . Il s'agit d'un cas particulier du résultat de Baldessari , une preuve peut également être trouvée ici .XNn(μ,Σ)UNErUNEΣXTUNEXχr2(μTUNEμ/2)χ2rμTUNEμ/2
  2. Soit . Si , alors et sont indépendants. Ceci est connu comme le théorème de Craig .XNn(μ,Σ)UNEΣB=0XTUNEXXTBX

Depuis , nous avonsCependant, sous l'hypothèse nulle , donc vraiment . D'autre part, notez que depuis . Par conséquent, . Puisque , et sont également indépendants. Il s'ensuit immédiatementyNn(Xβ,σ2je)

ESSσ2=(yσ)T(H-1nJ)yσχp-12((Xβ)T(H-Jn)Xβ).
β=0ESS/σ2χp-12yTMy=εTMεHX=XRSS/σ2χn-p2M(H-J/n)=0ESS/σ2RSS/σ2
F=(TSS-RSS)/(p-1)RSS/(n-p)=ESSσ2/(p-1)RSSσ2/(n-p)Fp-1,n-p.
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.