Vous pensez probablement au test deux échantillons t, car c'est souvent le premier endroit où la distribution t apparaît. Mais en réalité tout ce que signifie un test t est que la distribution de référence pour la statistique de test est une distribution t . Si Z∼N(0,1) et S2∼χ2d avec Z et S2 indépendants, alors
ZS2/d−−−−√∼td
par définition. J'écris ceci pour souligner que ladistributionest juste un nom qui a été donné à la distribution de ce rapport car il revient beaucoup, et tout ce qui a cette forme aura un
ttt distribution . Pour le test t à deux échantillons, ce rapport apparaît parce que sous la valeur nulle, la différence de moyenne est un gaussien à moyenne nulle et l'estimation de la variance pour les gaussiens indépendants est un
χ2 indépendant (l'indépendance peut être montrée via
le théorème de Basu qui utilise le fait que l'estimation de la variance standard dans un échantillon gaussien est accessoire à la moyenne de la population, alors que la moyenne de l'échantillon est complète et suffisante pour cette même quantité).
Avec la régression linéaire, nous obtenons essentiellement la même chose. Sous forme . Soit S 2 j = ( X T X ) - 1 j j et supposons que les prédicteurs X sont non aléatoires. Si nous savions σ 2 que nous aurions
β j - 0β^∼N(β,σ2(XTX)−1)S2j=(XTX)−1jjXσ2
sous le nulH0:βj=0donc nous aurions en fait un test Z. Mais une foisnous estimonsσ2nous nous retrouvons avec unχ2variable aléatoire qui, sous nos hypothèses de normalité, se révèle être indépendante de notre statistique β jet nous obtenons unetdistribution.
β^j−0σSj∼N(0,1)
H0:βj=0σ2χ2β^jt
Voici les détails de cela: supposons . Soit H = X ( X T X ) - 1 X T la matrice chapeau que nous avons
‖ e ‖ 2 = ‖ ( I - H ) y ‖ 2 = y T ( I - H ) y . H est idempotent donc nous avons le résultat vraiment sympa
y∼N(Xβ,σ2I)H=X(XTX)−1XT
∥e∥2=∥(I−H)y∥2=yT(I−H)y.
H
avec paramètre de non-centralité
δ = β T X T ( I - H ) X β = β T ( X T X - X T X ) β = 0 , donc en fait c'est un
χ 2 centralavec
n - pyT(I−H)y/σ2∼χ2n−p(δ)
δ=βTXT(I−H)Xβ=βT(XTX−XTX)β=0χ2n−pdegrés de liberté (c'est un cas particulier
du théorème de
Cochran ). J'utilise
pour dénoter le nombre de colonnes de
X , donc si une colonne de
X donne l'ordonnée à l'origine, nous aurions alors
p - 1 prédicteurs de non-interception. Certains auteurs utilisent
p pour être le nombre de prédicteurs non-intercept donc parfois vous pouvez voir quelque chose comme
n - p - 1 dans les degrés de liberté là-bas, mais c'est la même chose.
pXXp - 1pn - p - 1
Le résultat de ceci est que , de sorte que σ 2 : = 1E( eTe / σ2) = n - pfonctionne très bien comme estimateur deσ2.σ^2: = 1n - peTeσ2
Cela signifie que
β j
est le rapport d'un gaussien standard à un chi carré divisé par ses degrés de liberté. Pour terminer cela, nous devons faire preuve d'indépendance et nous pouvons utiliser le résultat suivant:
β^jσ^Sj= β^jSjeTe / ( n - p )----------√= β^jσSjeTeσ2( n - p )------√
Résultat: pour et les matrices A et B dans R l × k et R m × k respectivement, A Z et B Z sont indépendants si et seulement si A Σ B T = 0 (c'est l'exercice 58 (b) dans le chapitre 1 des statistiques mathématiques de Jun Shao ).Z∼ Nk( μ , Σ )UNEBRl × kRm × kA ZB ZA Σ BT= 0
Nous avons β = ( X T X ) - 1 X T y et e = ( I - H ) y où y ~ N ( X β , σ 2 I ) . Cela signifie
( X T X ) - 1 X T ⋅ σ 2 I ⋅ ( I - H ) T = σ 2β^= ( XTX)- 1XTye = ( I- H) yy∼ N( Xβ, σ2je)
si la ß ⊥e, etconséquent la ß ⊥ e T e.
( XTX)- 1XT⋅ σ2je⋅ ( je- H)T= σ2( ( XTX)- 1XT- ( XTX)- 1XTX( XTX)- 1XT) =0
β^⊥ eβ^⊥ eTe
Le résultat que nous savons maintenant est
β j
comme onsouhaite (dans toutes les hypothèses cidessus).
β^jσ^Sj∼ tn - p
C= ( AB)( l + m ) × kUNEB
CZ= ( A ZB Z) ∼N( ( A μB μ) ,CΣ CT)
CΣ CT= ( AB) Σ( ATBT) = ( A Σ ATB Σ ATA Σ BTB Σ BT) .
CZA Σ BT= 0A ZB ZCZ
□