Différence entre le test t et l'ANOVA dans la régression linéaire

Je me demande quelles sont les différences entre le test t et l'ANOVA en régression linéaire?

Est-ce qu'un test t pour tester si l'une des pentes et une intersection a une moyenne de zéro, alors que l'ANOVA pour tester si toutes les pentes ont une moyenne de zéro? Est-ce la seule différence entre eux?
En régression linéaire simple, c'est-à-dire lorsqu'il n'y a qu'une seule variable prédictive, il n'y a qu'une seule pente à estimer. Le test t et l'ANOVA sont-ils donc équivalents, et si oui, comment, étant donné qu'ils utilisent des statistiques différentes (le test t utilise la statistique t et l'ANOVA utilise la statistique F)?

regression anova t-test

— Tim
source

Ad 1) En régression linéaire, je comprends normalement l'ANOVA comme une mesure de la qualité de l'ajustement du modèle, c'est-à-dire pour décider si le modèle (ligne de régression) explique une partie substantielle de la variabilité totale. La question de savoir si cela équivaut à ce que toutes les pentes soient nulles est vraiment très intéressante. Ad 2) il semble que j'obtienne presque les mêmes valeurs de p pour le test t et l'ANOVA de régression dans ce cas. Théorème vraiment intéressant!

— Curieux du

Réponses:

Le modèle linéaire général nous permet d'écrire un modèle ANOVA comme modèle de régression. Supposons que nous avons deux groupes avec chacun deux observations, c'est-à-dire quatre observations dans un vecteur . Le modèle original, surparamétrisé est alors , où est la matrice des prédicteurs, c'est-à-dire des variables indicatrices codées : $y$ $E(y) = X^{\star} \beta^{\star}$ $X^{\star}$

(\begin{matrix} μ_{1} \\ μ_{1} \\ μ_{2} \\ μ_{2} \end{matrix}) = (\begin{array}{ccc} 1 & 1 & 0 \\ 1 & 1 & 0 \\ 1 & 0 & 1 \\ 1 & 0 & 1 \end{array}) (\begin{matrix} β_{0}^{⋆} \\ β_{1}^{⋆} \\ β_{2}^{⋆} \end{matrix})

$\left(\begin{array}{c}\mu_{1} \\ \mu_{1} \\ \mu_{2} \\ \mu_{2}\end{array}\right) = \left(\begin{array}{ccc}1 & 1 & 0 \\ 1 & 1 & 0 \\ 1 & 0 & 1 \\ 1 & 0 & 1\end{array}\right) \left(\begin{array}{c}\beta_{0}^{\star} \\ \beta_{1}^{\star} \\ \beta_{2}^{\star}\end{array}\right)$

Les paramètres ne sont pas identifiables comme car a le rang 2 ( n'est pas inversible). Pour changer cela, nous introduisons la contrainte (contrastes de traitement), qui nous donne le nouveau modèle $((X^{\star})' X^{\star})^{-1} (X^{\star})' E(y)$ $X^{\star}$ $(X^{\star})'X^{\star}$ $\beta_{1}^{\star} = 0$ : $E(y) = X \beta$

(\begin{matrix} μ_{1} \\ μ_{1} \\ μ_{2} \\ μ_{2} \end{matrix}) = (\begin{array}{cc} 1 & 0 \\ 1 & 0 \\ 1 & 1 \\ 1 & 1 \end{array}) (\begin{matrix} β_{0} \\ β_{2} \end{matrix})

$\left(\begin{array}{c}\mu_{1} \\ \mu_{1} \\ \mu_{2} \\ \mu_{2}\end{array}\right) = \left(\begin{array}{cc}1 & 0 \\ 1 & 0 \\ 1 & 1 \\ 1 & 1\end{array}\right) \left(\begin{array}{c}\beta_{0} \\ \beta_{2}\end{array}\right)$

$\mu_{1} = \beta_{0}$ $\beta_{0}$ $\mu_{2} = \beta_{0} + \beta_{2}$ $\beta_{2}$ $\mu_{2} - \mu_{1}$

$t$ $\psi = \sum c_{j} \beta_{j}$ $\psi_{0}$ $c = (0, 1)'$ $\beta_{2} = 0$ $\mu_{2} - \mu_{1} = 0$ $\hat{\psi} = \sum c_{j} \hat{\beta}_{j}$ $\hat{\beta} = (X'X)^{-1} X' y$ $\psi$

t = \frac{\hat{ψ} - ψ_{0}}{\hat{σ} \sqrt{c^{'} (X^{'} X)^{- 1} c}}

$t = \frac{\hat{\psi} - \psi_{0}}{\hat{\sigma} \sqrt{c' (X'X)^{-1} c}}$

$\hat{\sigma}^{2} = \|e\|^{2} / (n-\mathrm{Rank}(X))$ $\|e\|^{2}$ $\mathrm{Rank}(X) = 2$ $(X'X)^{-1} X' = \left(\begin{smallmatrix}.5 & .5 & 0 & 0 \\-.5 & -.5 & .5 & .5\end{smallmatrix}\right)$ , et les estimateurs sont donc et . Avec étant 1 dans notre cas, la statistique de test devient: $\hat{\beta}_{0} = 0.5 y_{1} + 0.5 y_{2} = M_{1}$ $\hat{\beta}_{2} = -0.5 y_{1} - 0.5 y_{2} + 0.5 y_{3} + 0.5 y_{4} = M_{2} - M_{1}$ $c' (X'X)^{-1} c$

t = \frac{M_{2} - M_{1} - 0}{\hat{σ}} = \frac{M_{2} - M_{1}}{\sqrt{‖ e ‖^{2} / (n - 2)}}

$t = \frac{M_{2} - M_{1} - 0}{\hat{\sigma}} = \frac{M_{2} - M_{1}}{\sqrt{\|e\|^{2} / (n-2)}}$

$t$ est -distribué avec df (ici ). Lorsque vous équerrez , vous obtenez , la statistique de test de l'ANOVA $t$ $n - \mathrm{Rank}(X)$ $n-2$ $t$ $\frac{(M_{2} - M_{1})^{2} / 1}{\|e\|^{2} / (n-2)} = \frac{SS_{b} / df_{b}}{SS_{w} / df_{w}} = F$ $F$ pour deux groupes ( pour entre, pour à l'intérieur des groupes) qui suit un - distribution avec 1 et df. $b$ $w$ $F$ $n - \mathrm{Rank}(X)$

Avec plus de deux groupes, l'hypothèse ANOVA (toutes $\beta_{j}$ sont simultanément 0, avec ) fait référence à plus d'un paramètre et ne peut pas être exprimée comme une combinaison linéaire , donc les tests ne sont pas équivalents . $1 \leq j$ $\psi$

— caracal
source

Dans 1, l'ANOVA testera généralement les variables des facteurs et si la variance entre les groupes est significative ou non. Vous verrez clairement la différence si votre logiciel autorise les variables d'indicateur dans une régression: pour chaque mannequin, vous obtiendrez une valeur ap indiquant si ce groupe a un score significativement différent de 0, et par conséquent significativement différent du groupe de référence ou de la valeur de référence applicable . Habituellement, vous ne verrez pas dans quelle mesure l'indicateur lui-même est important avant de faire un test ANOVA.

Un test F est un test t carré. Par conséquent, en 2, c'est la même chose.

— La main d'oeuvre
source

Merci! (1) Que signifient les variables d'indicateur ici? (2) Généralement, un test t n'est équivalent à l'ANOVA que lorsqu'il n'y a que deux groupes. Mais dans une régression linéaire simple, il peut y avoir plus de deux groupes, où le nombre de groupes est le nombre de valeurs que la variable prédictive prend dans l'ensemble de données.

— Tim

(1) Indicateur ou variable catégorielle ou factorielle ... tout de même. (2) En effet, mais vous voudrez peut-être savoir dans quelle mesure un ensemble de mannequins / catégories obtient des résultats de l'ANOVA.

— Travail

Merci! (2) Donc, dans une régression linéaire simple, comment le test t est-il équivalent à l'ANOVA, étant donné qu'il y a plus de deux groupes? Que signifie «dans quelle mesure un ensemble de variables factices / catégories de l'ANOVA» signifie-t-il et pourquoi est-ce que je veux le savoir?

— Tim

Dans la régression OLS, R² (variance expliquée) sera égal à eta² ou MSS / TSS d'ANOVA quel que soit le nombre de groupes que vous définissez. Ensuite, vous voudrez peut-être connaître la contribution d'un ensemble de variables muettes (c'est-à-dire une variable indicatrice) pour dire si l'ensemble lui-même est pertinent et dans quelle mesure, ce qui est différent de l'importance de la différence entre une seule catégorie et la catégorie de référence. .

— Labor