Spécification des données du panneau

J'essaie de trouver la meilleure spécification pour mon jeu de données.

J'essaie de sonder l'efficacité des zones économiques spéciales en Pologne dans le sens de la croissance de l'économie dans trois modèles de données de panel similaires pour les variables expliquées: a) taux de chômage enregistré b) PIB par habitant c) formation brute de capital fixe par habitant . Les données concernent les sous-régions NUTS3. Les variables explicatives sont: 0-1 pour la présence de la ZES dans la sous-région dans l'année $t$ et quelques-unes des variables économiques; fréquence annuelle, l'ensemble de données est 2004-2012 pour 66 sous-régions.

J'ai essayé des effets fixes et aléatoires. Pour l'instant, j'ai choisi FE, en raison de la signification et des signes théoriquement corrects. Mais il y a des problèmes qui m'empêchent de le prendre pour acquis:

Comment tester l'autocorrélation et la corrélation croisée?
Je n'ai aucune idée de comment tester la distribution du terme d'erreur dans Stata, et de plus si elle n'est pas normalement distribuée, devrais-je m'en soucier beaucoup?
Si je comprends bien de la littérature, les valeurs du coefficient de corrélation entre les variables explicatives et le terme d'erreur près de -1 ou 1 ne sont pas mauvais en fait; dans mon cas, c'est presque -1 comme vous pouvez le voir.
Un modèle mixte convient-il à mon ensemble de données?

Je joins le résultat du modèle expliquant le taux de chômage.

Code:

xtreg  st_bezr sse01 wartosc_sr_trw_per_capita zatr_przem_bud podm_gosp_na_10tys_ludn proc_ludn_wiek_prod ludnosc_na_km2, fe

Fixed-effects (within) regression               Number of obs      =       594
Group variable: id                              Number of groups   =        66

R-sq:  within  = 0.4427                         Obs per group: min =         9
       between = 0.3479                                        avg =       9.0
       overall = 0.2365                                        max =         9

                                                F(6,522)           =     69.10
corr(u_i, Xb)  = -0.9961                        Prob > F           =    0.0000

-------------------------------------------------------------------------------------------
                  st_bezr |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
--------------------------+----------------------------------------------------------------
                    sse01 |  -1.406066   .4631984    -3.04   0.003    -2.316028   -.4961045
wartosc_sr_trw_per_capita |  -.0000963   .0000166    -5.79   0.000    -.0001289   -.0000636
           zatr_przem_bud |  -26.11989   4.992198    -5.23   0.000    -35.92716   -16.31263
  podm_gosp_na_10tys_ludn |  -.0201788   .0030788    -6.55   0.000    -.0262273   -.0141304
      proc_ludn_wiek_prod |  -229.1996   16.92631   -13.54   0.000    -262.4516   -195.9475
           ludnosc_na_km2 |   .0790167   .0120865     6.54   0.000     .0552726    .1027609
                    _cons |   161.9786   10.76989    15.04   0.000      140.821    183.1363
--------------------------+----------------------------------------------------------------
                  sigma_u |  53.986519
                  sigma_e |  2.5446248
                      rho |  .99778327   (fraction of variance due to u_i)
-------------------------------------------------------------------------------------------
F test that all u_i=0:     F(65, 522) =    27.09             Prob > F = 0.0000

— charlie9207
source

Pour les commandes Stata dans cette réponse, permettez-moi de collecter vos variables dans un local:
local xlist sse01 wartosc_sr_trw_per_capita zatr_przem_bud podm_gosp_na_10tys_ludn proc_ludn_wiek_prod ludnosc_na_km2
Alors maintenant, vous pouvez toujours appeler toutes les variables avec `xlist '

1) Il existe deux commandes que vous pouvez utiliser après votre régression à effets fixes.

xttest2effectue un test de Breusch-Pagan LM avec l'hypothèse nulle de non-dépendance entre les résidus. Il s'agit d'un test de corrélation contemporaine. Le fait de ne pas rejeter le zéro signifie que le test n'a détecté aucune dépendance transversale dans vos résidus.
xttest3effectue une version modifiée du test de Wald pour l'hétéroscédasticité par groupe. L'hypothèse nulle est l'homoscédasticité.

Vous pouvez installer les deux commandes en tapant ssc instal xttest2 et ssc instal xttest3. Si vous détectez des corrélations entre vos résidus, vous pouvez corriger cela avec l'option robuste:
xtreg st_bezr 'xlist', fe robust

Pour tester l'autocorrélation, vous pouvez appliquer un test Lagrange Multiplier via xtserial:
xtserial st_bezr 'xlist'
L'hypothèse nulle n'est pas une corrélation sérielle. Pour corriger à la fois la corrélation série et l'hétéroscédasticité, vous pouvez utiliser l'option cluster avec votre variable id:
xtreg st_bezr 'xlist', fe cluster(id)

2) Pour le test de normalité des résidus: vous pouvez obtenir les résidus via la commande prédire predict res, eaprès votre régression à effets fixes. Pour une inspection visuelle, vous pouvez utiliser:

kdensity res, normal (trace la distribution des résidus et la compare à une normale)
pnorm res (trace un tracé de probabilité normale normalisé)
qnorm res (trace les quantiles des résidus par rapport aux quantiles d'une distribution normale)

Avec pnorm, vous pouvez voir s'il y a non-normalité au milieu de la distribution et qnorm vous montre toute non-normalité dans les queues. Un test formel peut être obtenu par swilk res. L'hypothèse nulle est que les résidus sont normalement distribués. En général, la non-normalité n'est pas une préoccupation trop importante, mais elle importe pour l'inférence. Vous pouvez à nouveau corriger cela avec l'option robuste.

3) Avoir corr(u_i, Xb) = -0.9961 signifie que les effets fixes sont fortement corrélés avec vos variables explicatives, vous avez donc bien fait en contrôlant ces effets fixes. Une forte corrélation de ce type indique généralement que les OLS groupés ou les effets aléatoires ne conviendront pas à votre objectif, car ces deux modèles supposent que la corrélation entre $u_i$ et $X\beta$ est zéro.

4) Généralement oui mais cela dépend de ce que vous voulez estimer ou de la façon dont vous pouvez traiter vos données, c'est-à-dire si vos variables sont aléatoires ou non. Voici une excellente explication de la différence entre les effets mixtes et les modèles de données de panneau par @mpiktas qui vous aidera sûrement.

— Andy
source