Une caractéristique intéressante de la différence dans les différences (DiD) est que vous n'avez pas besoin de données de panneau pour cela. Étant donné que le traitement se déroule à un certain niveau d'agrégation (dans votre cas, les villes), vous n'avez qu'à échantillonner des individus au hasard dans les villes avant et après le traitement. Cela vous permet d'estimer
et d'obtenir l'effet causal du traitement comme la différence de résultat post-pré attendue pour le traité moins la différence de résultat post-pré attendue pour le contrôle.
yist=Ag+Bt+βDst+cXist+ϵist
Il y a un cas où les gens utilisent des effets fixes individuels au lieu d'un indicateur de traitement et c'est quand nous n'avons pas un niveau d'agrégation bien défini auquel le traitement a lieu. Dans ce cas, vous
où est un indicateur de la période de post-traitement pour les personnes qui reçu le traitement (par exemple, un programme du marché du travail qui se déroule partout). Pour plus d'informations à ce sujet, consultez ces notes de cours de Steve Pischke. D i t
yit=αi+Bt+βDit+cXit+ϵit
Dit
Dans votre environnement, l'ajout d'effets fixes individuels ne devrait rien changer par rapport aux estimations ponctuelles. L'indicateur de traitement sera simplement absorbé par les effets fixes individuels. Cependant, ces effets fixes peuvent absorber une partie de la variance résiduelle et donc potentiellement réduire l'erreur standard de votre coefficient DiD.Ag
Voici un exemple de code qui montre que c'est le cas. J'utilise Stata mais vous pouvez le reproduire dans le package statistique de votre choix. Les «individus» ici sont en fait des pays mais ils sont toujours groupés selon un indicateur de traitement.
* load the data set (requires an internet connection)
use "http://dss.princeton.edu/training/Panel101.dta"
* generate the time and treatment group indicators and their interaction
gen time = (year>=1994) & !missing(year)
gen treated = (country>4) & !missing(country)
gen did = time*treated
* do the standard DiD regression
reg y_bin time treated did
------------------------------------------------------------------------------
y_bin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | .375 .1212795 3.09 0.003 .1328576 .6171424
treated | .4166667 .1434998 2.90 0.005 .13016 .7031734
did | -.4027778 .1852575 -2.17 0.033 -.7726563 -.0328992
_cons | .5 .0939427 5.32 0.000 .3124373 .6875627
------------------------------------------------------------------------------
* now repeat the same regression but also including country fixed effects
areg y_bin did time treated, a(country)
------------------------------------------------------------------------------
y_bin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
time | .375 .120084 3.12 0.003 .1348773 .6151227
treated | 0 (omitted)
did | -.4027778 .1834313 -2.20 0.032 -.7695713 -.0359843
_cons | .6785714 .070314 9.65 0.000 .53797 .8191729
-------------+----------------------------------------------------------------
Vous voyez donc que le coefficient DiD reste le même lorsque les effets fixes individuels sont inclus ( areg
est l'une des commandes d'estimation des effets fixes disponibles dans Stata). Les erreurs standard sont légèrement plus serrées et notre indicateur de traitement d'origine a été absorbé par les effets fixes individuels et a donc chuté dans la régression.
En réponse au commentaire,
j'ai mentionné l'exemple de Pischke pour montrer quand les gens utilisent des effets fixes individuels plutôt qu'un indicateur de groupe de traitement. Votre paramètre a une structure de groupe bien définie, donc la façon dont vous avez écrit votre modèle est parfaitement adaptée. Les erreurs standard doivent être regroupées au niveau de la ville, c'est-à-dire le niveau d'agrégation auquel le traitement a lieu (je ne l'ai pas fait dans l'exemple de code mais dans les paramètres DiD, les erreurs standard doivent être corrigées comme le démontre l'article de Bertrand et al. ).
Concernant les déménageurs, ils n'ont pas grand-chose à jouer ici. L'indicateur de traitement est égal à 1 pour les personnes qui vivent dans une ville traitée dans la période de post-traitement . Pour calculer le coefficient DiD, il suffit en fait de calculer quatre attentes conditionnelles, à savoir
Dstst
c=[E(yist|s=1,t=1)−E(yist|s=1,t=0)]−[E(yist|s=0,t=1)−E(yist|s=0,t=0)]
Donc, si vous avez 4 périodes de post-traitement pour un individu qui vit dans une ville traitée pour les deux premières, puis qui déménage dans une ville de contrôle pour les deux périodes restantes, les deux premières de ces observations seront utilisées dans le calcul de et les deux derniers dans . Pour expliquer clairement pourquoi l'identification provient des différences de groupe au fil du temps et non des déménageurs, vous pouvez visualiser cela avec un graphique simple. Supposons que le changement dans le résultat ne soit vraiment dû qu'au traitement et qu'il ait un effet contemporain. Si nous avons une personne qui vit dans une ville traitée après le début du traitement mais déménage ensuite dans une ville de contrôle, son résultat devrait revenir à ce qu'elle était avant d'être traité. Ceci est illustré dans le graphique stylisé ci-dessous.E ( y i s t | s = 0 , t = 1 )E(yist|s=1,t=1)E(yist|s=0,t=1)
Vous voudrez peut-être toujours penser aux déménageurs pour d'autres raisons. Par exemple, si le traitement a un effet durable (c'est-à-dire qu'il affecte toujours le résultat même si la personne a bougé)