Comprendre le test t pour la régression linéaire

17

J'essaie de savoir comment effectuer des tests d'hypothèse sur une régression linéaire (l'hypothèse nulle étant sans corrélation). Chaque guide et page sur le sujet que je rencontre semble utiliser un test t. Mais je ne comprends pas ce que signifie réellement le test t pour la régression linéaire. Un test t, sauf si j'ai une compréhension ou un modèle mental complètement faux, est utilisé pour comparer deux populations. Mais le régresseur et le régresseur ne sont pas des échantillons de populations similaires, et peuvent même ne pas être de la même unité, il n'est donc pas logique de les comparer.

Donc, lorsque vous utilisez un test t sur une régression linéaire, que faisons-nous réellement?

regression t-test

— jaymmer - Réintégrer Monica
source

37

Vous pensez probablement au test deux échantillons $t$ , car c'est souvent le premier endroit où la distribution $t$ apparaît. Mais en réalité tout ce que signifie un test $t$ est que la distribution de référence pour la statistique de test est une distribution $t$ . Si $Z \sim \mathcal N(0,1)$ et $S^2 \sim \chi^2_d$ avec $Z$ et $S^2$ indépendants, alors

\frac{Z}{\sqrt{S^{2} / d}} \sim t_{d}

$\frac{Z}{\sqrt{S^2 / d}} \sim t_d$ par définition. J'écris ceci pour souligner que ladistributionest juste un nom qui a été donné à la distribution de ce rapport car il revient beaucoup, et tout ce qui a cette forme aura un

t

$t$

t

$t$ distribution . Pour le test t à deux échantillons, ce rapport apparaît parce que sous la valeur nulle, la différence de moyenne est un gaussien à moyenne nulle et l'estimation de la variance pour les gaussiens indépendants est un

χ^{2}

$\chi^2$ indépendant (l'indépendance peut être montrée via le théorème de Basu qui utilise le fait que l'estimation de la variance standard dans un échantillon gaussien est accessoire à la moyenne de la population, alors que la moyenne de l'échantillon est complète et suffisante pour cette même quantité).

Avec la régression linéaire, nous obtenons essentiellement la même chose. Sous forme . Soit et supposons que les prédicteurs sont non aléatoires. Si nous savions que nous aurions $\hat \beta \sim \mathcal N(\beta, \sigma^2 (X^T X)^{-1})$ $S^2_j = (X^T X)^{-1}_{jj}$ $X$ $\sigma^2$ sous le nuldonc nous aurions en fait un test Z. Mais une foisnous estimonsnous nous retrouvons avec unvariable aléatoire qui, sous nos hypothèses de normalité, se révèle être indépendante de notre statistiqueet nous obtenons unedistribution.

\frac{{\hat{β}}_{j} - 0}{σ S_{j}} \sim N (0, 1)

$\frac{\hat \beta_j - 0}{\sigma S_j} \sim \mathcal N(0, 1)$

H_{0} : β_{j} = 0

$H_0 : \beta_j = 0$

σ^{2}

$\sigma^2$

χ^{2}

$\chi^2$

{\hat{β}}_{j}

$\hat \beta_j$

t

$t$

Voici les détails de cela: supposons . Soit la matrice chapeau que nous avons est idempotent donc nous avons le résultat vraiment sympa $y \sim \mathcal N(X\beta, \sigma^2 I)$ $H = X(X^TX)^{-1}X^T$

‖ e ‖^{2} = ‖ (I - H) y ‖^{2} = y^{T} (I - H) y .

$\|e\|^2 = \|(I-H)y\|^2 = y^T(I-H)y.$

H

$H$

avec paramètre de non-centralité

, donc en fait c'est un

centralavec

y^{T} (I - H) y / σ^{2} \sim χ_{n - p}^{2} (δ)

$y^T(I-H)y / \sigma^2 \sim \mathcal \chi_{n-p}^2(\delta)$

δ = β^{T} X^{T} (I - H) X β = β^{T} (X^{T} X - X^{T} X) β = 0

$\delta = \beta^TX^T(I-H)X\beta = \beta^T(X^TX - X^T X)\beta = 0$

χ^{2}

$\chi^2$

n - p

$n-p$ degrés de liberté (c'est un cas particulier du théorème de Cochran ). J'utilise

pour dénoter le nombre de colonnes de

, donc si une colonne de

donne l'ordonnée à l'origine, nous aurions alors

prédicteurs de non-interception. Certains auteurs utilisent

pour être le nombre de prédicteurs non-intercept donc parfois vous pouvez voir quelque chose comme

dans les degrés de liberté là-bas, mais c'est la même chose.

p

$p$

X

$X$

X

$X$

p - 1

$p-1$

p

$p$

n - p - 1

$n-p-1$

Le résultat de ceci est que , de sorte que $E(e^Te / \sigma^2) = n-p$ fonctionne très bien comme estimateur de. $\hat \sigma^2 := \frac{1}{n-p} e^T e$ $\sigma^2$

Cela signifie que est le rapport d'un gaussien standard à un chi carré divisé par ses degrés de liberté. Pour terminer cela, nous devons faire preuve d'indépendance et nous pouvons utiliser le résultat suivant:

\frac{{\hat{β}}_{j}}{\hat{σ} S_{j}} = \frac{{\hat{β}}_{j}}{S_{j} \sqrt{e^{T} e / (n - p)}} = \frac{{\hat{β}}_{j}}{σ S_{j} \sqrt{\frac{e^{T} e}{σ^{2} (n - p)}}}

$\frac{\hat \beta_j}{\hat \sigma S_j}= \frac{\hat \beta_j}{S_j\sqrt{e^Te / (n-p)}} = \frac{\hat \beta_j}{\sigma S_j\sqrt{\frac{e^Te}{\sigma^2(n-p)}}}$

Résultat: pour et les matrices et dans et respectivement, et sont indépendants si et seulement si (c'est l'exercice 58 (b) dans le chapitre 1 des statistiques mathématiques de Jun Shao ). $Z \sim \mathcal N_k(\mu, \Sigma)$ $A$ $B$ $\mathbb R^{l\times k}$ $\mathbb R^{m\times k}$ $AZ$ $BZ$ $A\Sigma B^T = 0$

Nous avons et où . Cela signifie $\hat \beta = (X^TX)^{-1}X^T y$ $e = (I-H)y$ $y \sim \mathcal N(X\beta, \sigma^2 I)$ si, etconséquent.

(X^{T} X)^{- 1} X^{T} \cdot σ^{2} I \cdot (I - H)^{T} = σ^{2} ((X^{T} X)^{- 1} X^{T} - (X^{T} X)^{- 1} X^{T} X (X^{T} X)^{- 1} X^{T}) = 0

$(X^TX)^{-1}X^T \cdot \sigma^2 I \cdot (I-H)^T = \sigma^2 \left((X^TX)^{-1}X^T - (X^TX)^{-1}X^TX(X^TX)^{-1}X^T\right) = 0$

\hat{β} ⊥ e

$\hat \beta \perp e$

\hat{β} ⊥ e^{T} e

$\hat \beta \perp e^T e$

Le résultat que nous savons maintenant est comme onsouhaite (dans toutes les hypothèses cidessus).

\frac{{\hat{β}}_{j}}{\hat{σ} S_{j}} \sim t_{n - p}

$\frac{\hat \beta_j}{\hat \sigma S_j} \sim t_{n-p}$

$C = {A \choose B}$ $(l+m)\times k$ $A$ $B$

C Z = (\binom{A Z}{B Z}) \sim N ((\binom{A μ}{B μ}), C Σ C^{T})

$CZ = {AZ \choose BZ} \sim \mathcal N \left({A\mu \choose B\mu}, C\Sigma C^T \right)$

C Σ C^{T} = (\binom{A}{B}) Σ (\begin{array}{cc} A^{T} & B^{T} \end{array}) = (\begin{array}{cc} A Σ A^{T} & A Σ B^{T} \\ B Σ A^{T} & B Σ B^{T} \end{array}) .

$C\Sigma C^T = {A \choose B} \Sigma \left(\begin{array}{cc} A^T & B^T \end{array}\right) = \left(\begin{array}{cc}A\Sigma A^T & A\Sigma B^T \\ B\Sigma A^T & B\Sigma B^T\end{array}\right).$

C Z

$CZ$

A Σ B^{T} = 0

$A\Sigma B^T = 0$

A Z

$AZ$

B Z

$BZ$

C Z

$CZ$

$\square$

— jld
source

3

+1 aime toujours lire votre réponse.

— Haitao Du

9

@ La réponse de Chaconne est excellente. Mais voici une version non mathématique beaucoup plus courte!

Le but étant de calculer une valeur P, vous devez d'abord définir une hypothèse nulle. Presque toujours, c'est que la pente est en fait horizontale donc la valeur numérique de la pente (beta) est 0.0.

L'ajustement de pente de vos données n'est pas de 0,0. Cet écart est-il dû au hasard ou à l'hypothèse nulle qui est fausse? Vous ne pouvez jamais répondre à cela avec certitude, mais une valeur P est un moyen d'obtenir une réponse en quelque sorte.

Le programme de régression signale une erreur standard de la pente. Calculez le rapport t comme la pente divisée par son erreur standard. En fait, il est (pente moins pente de l'hypothèse nulle) divisé par l'erreur standard, mais la pente de l'hypothèse nulle est presque toujours nulle.

Maintenant, vous avez à ratio. Le nombre de degrés de liberté (df) est égal au nombre de points de données moins le nombre de paramètres ajustés par la régression (deux pour la régression linéaire).

Avec ces valeurs (t et df), vous pouvez déterminer la valeur P avec une calculatrice ou un tableau en ligne.

Il s'agit essentiellement d'un test t à un échantillon, comparant une valeur calculée observée (la pente) à une valeur hypothétique (l'hypothèse nulle).

— Harvey Motulsky
source

4

La vraie question est de savoir pourquoi il s'agit "essentiellement d'un test t à un échantillon", et je ne vois pas comment cela peut devenir clair à partir de votre réponse ...

— amibe dit Reinstate Monica