Quelle est la bonne façon de tester les différences significatives entre les coefficients?


18

J'espère que quelqu'un pourra m'aider à redresser un point de confusion. Disons que je veux tester si 2 ensembles de coefficients de régression sont significativement différents les uns des autres, avec la configuration suivante:

  • yi=α+βxi+ϵi , avec 5 variables indépendantes.
  • 2 groupes, de tailles à peu près égales n1,n2 (bien que cela puisse varier)
  • Des milliers de régressions similaires seront effectuées simultanément, donc une sorte de correction d'hypothèses multiples doit être effectuée.

Une approche qui m'a été suggérée est d'utiliser un test Z:

Z=b1b2(SEb12+SEb22)

Un autre que j'ai vu suggéré sur ce tableau est d'introduire une variable fictive pour le regroupement et de réécrire le modèle comme:

yi=α+βxi+δ(xigi)+ϵi , oùg est la variable de regroupement, codée 0, 1.

Ma question est la suivante: en quoi ces deux approches sont-elles différentes (par exemple, hypothèses différentes formulées, flexibilité)? Est-ce que l'un est plus approprié que l'autre? Je soupçonne que c'est assez basique, mais toute clarification serait grandement appréciée.


Je pense que les réponses et les commentaires à une question similaire peuvent apporter certains des éclaircissements que vous recherchez.
whuber

Merci whuber. Je connaissais cette réponse. De la discussion ci-dessous la réponse acceptée (et vos commentaires là-bas), j'ai eu l'impression que la comparaison des coefficients de 2 ajustements distincts n'était pas appropriée. Un test z appliqué aux coefficients des ajustements séparés est-il incorrect ou est-ce que le codage des variables fictives est simplement plus facile et fournit une réponse équivalente?
cashoes

1
Veuillez consulter le dernier paragraphe de ma réponse ("La principale limitation ..."). Le test Z est valide en supposant que les sont grands (sinon utiliser lors du test) et que les écarts-types estimés S E b i ne sont pas trop différents les uns des autres. Aucune des deux approches n'est meilleure lorsque les écarts-types diffèrent beaucoup (plus ou moins un rapport de 3: 1). niSEbi
whuber

Réponses:


13

Les deux approches diffèrent.

Supposons que les erreurs types estimées des deux régressions soient et s 2 . Ensuite, comme la régression combinée (avec toutes les interactions coefficient-fictif) correspond aux mêmes coefficients, elle a les mêmes résidus, d'où son erreur standard peut être calculée commes1s2

s=(n1p)s12+(n2p)s22)n1+n22p.

Le nombre de paramètres est égal à 6 dans l'exemple: cinq pentes et une intersection dans chaque régression.p6

Supposons que estime un paramètre dans une régression, b 2 estime le même paramètre dans l'autre régression et b estime leur différence dans la régression combinée. Ensuite, leurs erreurs standard sont liées parb1b2b

SE(b)=s(SE(b1)/s1)2+(SE(b2)/s2)2.

Si vous n'avez pas effectué la régression combinée, mais ne disposez que de statistiques pour les régressions distinctes, branchez l'équation précédente pour . Ce sera le dénominateur du test t. Évidemment, ce n'est pas le même que le dénominateur présenté dans la question.s

L'hypothèse faite par la régression combinée est que les variances des résidus sont essentiellement les mêmes dans les deux régressions distinctes. Si ce n'est pas le cas, cependant, le test z ne sera pas bon non plus (sauf si les tailles d'échantillon sont grandes): vous voudriez utiliser un test CABF ou un test t de Welch-Satterthwaite.


9

La façon la plus directe de tester une différence de coefficient entre deux groupes est d'inclure un terme d'interaction dans votre régression, ce qui est presque ce que vous décrivez dans votre question. Le modèle que vous exécutez est le suivant:

yi=α+βxi+γgi+δ(xi×gi)+εi

Notez que j'ai inclus la variable de groupe en tant que régresseur distinct dans le modèle. Avec ce modèle, un test avec l'hypothèse nulle H 0 : δ = 0 est un test des coefficients étant les mêmes entre les deux groupes. Pour voir cela, laissez d'abord g i = 0 dans le modèle ci-dessus. Ensuite, nous obtenons l'équation suivante pour le groupe 0:tH0:δ=0gi=0

yi=α+βxi+εi

Maintenant, si , alors nous avons:gi=1

yi=(α+γ)+(β+δ)xi+εi

δ


Merci d'avoir corrigé le modèle (je crois que ma version ci-dessus impose simplement que l'interception soit la même dans les deux groupes ...). Plus précisément, cela serait-il alors équivalent au test z que j'ai publié ci-dessus?
cashoes

yi=α+βxi+γgi+εi and the one shown in this answer, yi=α+βxi+γgi+δ(xi×gi)+εi be appropriate?
miura

@matt-blackwell is this conceptually the same as stratifying the model by each value of g? (ie. b would be the coefficient of x when g=0, and beta+delta when g=1) Although I appreciate that stratifying does not allow statistical comparison.
bobmcpop
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.