Quand faut-il inclure le décalage de la variable dépendante dans un modèle de régression et quel décalage?

Les données que nous voulons utiliser comme variable dépendante ressemblent à ceci (ce sont des données de comptage). Nous craignons qu'étant donné sa composante cyclique et sa structure tendancielle, la régression se révèle en quelque sorte biaisée.

entrez la description de l'image ici

Nous utiliserons une régression binomiale négative au cas où cela aiderait. Les données sont un panel équilibré, un mannequin par individu (états). L'image montrée affiche la somme de la variable dépendante pour tous les états mais la plupart des états seuls ont un comportement similaire. Nous envisageons un modèle à effets fixes. Les variables dépendantes ne sont pas très fortement corrélées, une partie de la recherche consiste à trouver une relation inattendue parmi ces variables, donc une relation faible est en fait quelque chose de bien.

Quels sont les dangers exacts de ne pas inclure une variable de décalage de la variable dépendante?

S'il est nécessaire d'en inclure un, existe-t-il un test pour savoir lequel (s)?

La mise en œuvre se fait en R.

Remarque : j'ai lu ce post mais cela n'a pas aidé notre problème.

— Mauricio G Tec
source

Un modèle de panel dynamique pourrait avoir du sens si vous avez un modèle de représailles œil contre œil pour les homicides. Par exemple, si le taux d'homicides était largement dû à des querelles de gangs, les meurtres au moment pourraient bien être fonction des décès à ou d'autres retards. $t$ $t-1$

Je vais répondre à vos questions dans le désordre. Supposons que le DGP soit

y_{i t} = δ y_{i t - 1} + x_{i t}^{'} β + μ_{i} + v_{i t},

$\begin{equation} y_{it}=\delta y_{it-1}+x_{it}^{\prime}\beta+\mu_{i}+v_{it}, \end{equation}$

où les erreurs et sont indépendantes les unes des autres et entre elles. Vous souhaitez effectuer un test pour savoir si (question 2). $\mu$ $v$ $\delta = 0$

Si vous utilisez OLS, il est facile de voir que et la première partie de l'erreur sont corrélées, ce qui rend OLS biaisé et incohérent, même en l'absence de corrélation série dans . Nous avons besoin de quelque chose de plus compliqué pour faire le test. $y_{it-1}$ $v$

La prochaine chose que vous pourriez essayer est l'estimateur à effets fixes avec la transformation intra, où vous transformez les données en soustrayant la moyenne chaque unité , , de chaque observation. Cela efface , mais cet estimateur souffre du biais de Nickell , lequel ne disparaît pas lorsque le nombre d'observations augmente, il est donc incohérent pour les grands et les petits panneaux Cependant, à mesure que croît, vous obtenez une cohérence de et . Judson et Owen (1999) font quelques simulations avec $y$ $\bar y_{i}$ $\mu$ $N$ $N$ $T$ $T$ $\delta$ $\beta$ et et ont trouvé la polarisation à êtreplusplus en et diminuant en . Cependant, même pour , le biais pourrait représenter jusqu'à de la valeur réelle du coefficient. Ce sont de mauvaises nouvelles ours! Ainsi, selon les dimensions de votre panel, vous souhaiterez peut-être éviter l'estimateur FE. Si , le biais est négatif, donc la persistance de est sous-estimée. Si les régresseurs sont corrélés avec le décalage, le sera également biaisé. $N=20,100$ $T=5,10,20,30$ $\delta$ $T$ $T=30$ $20\%$ $\delta > 0$ $y$ $\beta$

Une autre approche FE simple consiste à faire une première différence entre les données pour supprimer l'effet fixe et à utiliser pour instrumenter . Vous utilisez également comme instrument pour lui-même. Anderson et Hsiao (1981)est la référence canonique. Cet estimateur est cohérent (tant que les explicatifssont prédéterminés et que le $y_{it-2}$ $\Delta y_{it-1} = y_{it-1}-y_{it-2}$ $x_{it}-x_{it-1}$ $X$ les termes d'erreur d' origine ne sont pas corrélés en série), mais pas pleinement efficaces car ils n'utilisent pas toutes les conditions de moment disponibles et n'utilisent pas le fait que le terme d'erreur est maintenant différencié. Ce serait probablement mon premier choix. Si vous pensez que suit un processus AR (1), vous pouvez utiliser à la place les troisième et quatrième décalages de . $v$ $y$

Arellano et Bond (1991) ont dérivé un estimateur de la méthode des moments généralisés (GMM) plus efficace, qui a été étendu depuis, assouplissant certaines des hypothèses. Le chapitre 8 du panel de Baltagi est un bon aperçu de cette littérature, bien qu'il ne traite pas de la sélection des décalages pour autant que je sache. Il s'agit de mesures de pointe, mais plus exigeantes sur le plan technique.

Je pense que le plmpackage dans R a certains de ces éléments intégrés. Les modèles de panneaux dynamiques sont dans Stata depuis la version 10 , et SAS a au moins la version GMM . Aucun de ces modèles n'est un modèle de données de comptage, mais cela peut ne pas être un gros problème selon vos données. Cependant, voici un exemple d'un modèle de panneau de Poisson dynamique GMM dans Stata.

$y$ $\beta$

— Dimitriy V. Masterov
source

Vous utilisez donc les niveaux comme un instrument lorsque vous avez une série différenciée, et les différences lorsque vous avez une série de niveaux ?

— Andy W

En laissant tomber l' indice

, vous pouvez utiliser soit

i

$i$

Δ y_{t - 2} = y_{t} - 2 - y_{t - 3}

$\Delta y_{t−2}=y_{t}−2−y_{t−3}$

y_{t - 2}

$y_{t-2}$

Δ y_{t - 1} = y_{t - 1} - y_{t - 2}

$\Delta y_{t−1}=y_{t-1}−y_{t−2}$

— Dimitriy V. Masterov,