Comment sont-ils toutes les versions de la même méthode statistique de base?
Comment sont-ils toutes les versions de la même méthode statistique de base?
Réponses:
Considérez qu’elles peuvent toutes être écrites comme une équation de régression (avec peut-être des interprétations légèrement différentes de celles de leurs formes traditionnelles).
Régression:
Test t:
ANOVA:
La régression prototypique est conceptualisée avec tant que variable continue. Cependant, la seule hypothèse qui est réellement faite sur X est qu’il s’agit d’un vecteur de constantes connues. Il peut s'agir d'une variable continue, mais il peut également s'agir d'un code factice (c.-à-d. Un vecteur de 0 et 1 indiquant si une observation est un membre d'un groupe indiqué, par exemple un groupe de traitement). Ainsi, dans la deuxième équation, X pourrait être un tel code factice et la valeur p serait la même que celle d'un test t dans sa forme plus traditionnelle.
Le sens des bêtas serait différent ici, cependant. Dans ce cas, serait la moyenne du groupe de contrôle (pour lequel les entrées de la variable fictive seraient 0 ), et β 1 serait la différence entre la moyenne du groupe de traitement et la moyenne du contrôle groupe.
Maintenant, rappelez-vous qu’il est parfaitement raisonnable d’avoir / exécuter une ANOVA avec seulement deux groupes (bien qu’un test t soit plus courant), et vous avez les trois connectés. Si vous préférez voir comment cela fonctionnerait si vous aviez une ANOVA à 3 groupes; ce serait: Notez que lorsque vous avez g groupes, vous avez g - 1 codes factices pour les représenter. Le groupe de référence (généralement le groupe de contrôle) est indiqué par un 0 pourtousles codes factices (dans ce cas, le code factice 1 et le code factice 2). Dans ce cas, vous ne voudriez pas interpréter les valeurs p des tests t pour ces bêta fournies avec une sortie statistique standard - elles indiquent uniquement si le groupe indiqué diffère du groupe témoinlorsqu'il est évalué séparément.
À la lumière des commentaires de @ whuber ci-dessous, ceux-ci peuvent également être représentés via des équations matricielles:
représentés, Y & ε sont des vecteurs de longueur N et β est un vecteur de longueur p + 1 . X est maintenant une matrice avec N lignes et ( p + 1 ) colonnes. Dans une régression prototype, vous avez p variables X continues et l'ordonnée à l'origine. Ainsi, votre X
Si vous représentez une analyse de variance de cette manière avec groupes, rappelez-vous que vous auriez g - 1 variables nominales indiquant les groupes, le groupe de référence étant indiqué par une observation comportant des 0 dans chaque variable nominale. Comme ci-dessus, vous auriez toujours une interception. Ainsi, p = g - 1 .
Ils peuvent tous être écrits comme des cas particuliers du modèle linéaire général.
Un modèle ANOVA est fondamentalement juste un modèle de régression où les niveaux de facteurs sont représentés par des variables factices (ou indicateurs ) .
> t.test(extra ~ group, var.equal=TRUE, data = sleep)
Two Sample t-test
data: extra by group
t = -1.8608, df = 18, p-value = 0.07919
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.363874 0.203874
sample estimates:
mean in group 1 mean in group 2
0.75 2.33
Notez la valeur p de 0,079 ci-dessus. Voici le sens unique anova:
> summary(aov(extra~group,sleep))
Df Sum Sq Mean Sq F value Pr(>F)
group 1 12.48 12.482 3.463 0.0792
Residuals 18 64.89 3.605
Maintenant pour la régression:
> summary(lm(extra ~ group, data = sleep))
(certaines sorties ont été supprimées)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.7500 0.6004 1.249 0.2276
group2 1.5800 0.8491 1.861 0.0792 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared: 0.1613, Adjusted R-squared: 0.1147
F-statistic: 3.463 on 1 and 18 DF, p-value: 0.07919
Comparez la valeur p dans la ligne 'groupe2', ainsi que la valeur p pour le test F dans la dernière ligne. Pour un test bilatéral, ils sont identiques et les deux correspondent au résultat du test t.
De plus, le coefficient pour le «groupe 2» représente la différence de moyenne entre les deux groupes.
La réponse que j’ai affichée plus tôt est un peu pertinente, mais cette question est quelque peu différente.
Anova est similaire à un test t pour l'égalité des moyennes sous l'hypothèse de variances inconnues mais égales entre les traitements. En effet, dans ANOVA, MSE est identique à la variance groupée utilisée dans le test t. Il existe d'autres versions du test t, telles que l'une pour les variances non égales et le test t paire. De ce point de vue, le test t peut être plus flexible.