La question suggère une comparaison de trois modèles liés. Pour clarifier la comparaison, soit la variable dépendante, soit X ∈ { 1 , 2 , 3 } le code de communauté actuel et définissons X 1 et X 2 comme indicateurs des communautés 1 et 2, respectivement. (Cela signifie que X 1 = 1 pour la communauté 1 et X 1 = 0 pour les communautés 2 et 3; X 2 = 1 pour la communauté 2 et X 2 = 0YX∈{1,2,3}X1X2X1=1X1=0X2=1X2=0 pour les communautés 1 et 3.)
L'analyse actuelle peut être l'une des suivantes: soit
Y=α+βX+ε(first model)
ou
Y=α+β1X1+β2X2+ε(second model).
Dans les deux cas, représente un ensemble de variables aléatoires indépendantes identiquement distribuées avec une attente nulle. Le deuxième modèle est probablement celui prévu, mais le premier modèle est celui qui correspondra au codage décrit dans la question.ε
La sortie de la régression OLS est un ensemble de paramètres ajustés (indiqués par des "chapeaux" sur leurs symboles) ainsi qu'une estimation de la variance commune des erreurs. Dans le premier modèle il y a un test t pour comparer β à 0 . Dans le deuxième modèle, il existe deux tests t: un pour comparer ^ β 1 à 0 et un autre pour comparer ^ β 2 à 0 . Parce que la question ne rapporte qu'un seul test t, commençons par examiner le premier modèle.β^0β1^0β2^0
β^0YE[α+βX+ε]α+βX
X=1α+β
X=2α+2β
X=3α+3β
En particulier, le premier modèle oblige les effets communautaires à être en progression arithmétique. Si le codage communautaire est conçu comme un moyen arbitraire de différenciation entre les communautés, cette restriction intégrée est également arbitraire et probablement erronée.
Il est instructif d'effectuer la même analyse détaillée des prédictions du deuxième modèle:
X1=1X2=0Yα+β1
Y(community 1)=α+β1+ε.
X1=0X2=1Yα+β2
Y(community 2)=α+β2+ε.
X1=X2=0Yα
Y(community 3)=α+ε.
Yβ1=0β2=0β2−β1(α+β2)−(α+β1)β2−β1
Nous pouvons maintenant évaluer l'effet de trois régressions distinctes. Ils seraient
Y(community 1)=α1+ε1,
Y(community 2)=α2+ε2,
Y(community 3)=α3+ε3.
α1α+β1α2α+β2α3αε1ε2ε3mais rien n'est supposé au sujet des relations statistiques entre les régressions séparées. Des régressions séparées permettent donc une flexibilité supplémentaire:
Cette flexibilité supplémentaire signifie que les résultats du test t pour les paramètres seront probablement différents entre le deuxième et le troisième modèle. (Cependant, cela ne devrait pas conduire à des estimations de paramètres différentes.)
Pour voir si des régressions distinctes sont nécessaires , procédez comme suit:
Montez le deuxième modèle. Tracez les résidus par rapport à la communauté, par exemple sous la forme d'un ensemble de boîtes à moustaches côte à côte ou d'un trio d'histogrammes ou même sous forme de trois diagrammes de probabilité. Recherchez des preuves de différentes formes de distribution et en particulier de variances sensiblement différentes. Si ces preuves sont absentes, le deuxième modèle devrait être correct. S'il est présent, des régressions distinctes sont justifiées.
Lorsque les modèles sont multivariés - c'est-à-dire qu'ils incluent d'autres facteurs - une analyse similaire est possible, avec des conclusions similaires (mais plus compliquées). En général, effectuer des régressions distinctes revient à inclure toutes les interactions bidirectionnelles possibles avec la variable de communauté (codée comme dans le deuxième modèle, pas le premier) et à permettre des distributions d'erreur différentes pour chaque communauté.