Configuration de base:
modèle de régression: où C est le vecteur des variables de contrôle.
Je suis intéressé par et m'attends à ce que et soient négatifs. Cependant, il existe un problème de multicolinéarité dans le modèle, le coefficient de corrélation est donné par, corr ( , 0,9345, corr ( , 0,1765, corr ( , 0,3019.β 1 β 2 x 1 x 2 ) = x 1 x 3 ) = x 2 x 3 ) =
Ainsi, et sont fortement corrélés, et ils devraient pratiquement fournir les mêmes informations. Je lance trois régressions: x 2
- exclure la variable ; 2. exclure la variable ; 3. modèle original avec et .x 2 x 1 x 2
Résultats:
pour les régressions 1 et 2, il fournit le signe attendu pour et respectivement et avec une magnitude similaire. Et et sont significatifs au niveau de 10% dans les deux modèles après avoir fait la correction HAC en erreur standard. est positif mais non significatif dans les deux modèles.β 1 β 2β 3
Mais pour 3, a le signe attendu, mais le signe pour est positif avec une magnitude deux fois supérieure à en valeur absolue. Et et sont tous deux insignifiants. De plus, l'amplitude de diminue presque de moitié par rapport aux régressions 1 et 2.β 2 β 1 β 1β 3
Ma question est:
Pourquoi en 3, le signe de devient positif et bien supérieur à en valeur absolue? Y a-t-il une raison statistique pour laquelle peut retourner le signe et a une grande ampleur? Ou est-ce parce que les modèles 1 et 2 souffrent d'un problème de variable omis qui a gonflé condition que ait un effet positif sur y? Mais alors, dans les modèles de régression 1 et 2, et devraient être positifs plutôt que négatifs, car l'effet total de et dans le modèle de régression 3 est positif.β 1 β 2 β 3 x 2 β 2 β 1 x 1 x 2