Quelle est la différence dans les différences?

43

La différence des différences a longtemps été populaire en tant qu'outil non expérimental, en particulier en économie. Quelqu'un peut-il fournir une réponse claire et non technique aux questions suivantes sur les différences dans les différences.

Qu'est-ce qu'un estimateur de différence dans la différence?
Pourquoi un estimateur de différence de différence est-il utile?
Pouvons-nous réellement faire confiance aux estimations de différence dans la différence?

regression econometrics difference-in-difference

— Graham Cookson
source

Est-ce que quelqu'un sait comment estimer une différence de régression de différence dans gretl? Dois-je travailler avec des données MLS ou des données de panneau?

3

@Pyca Cela ressemble à une utilisation inappropriée de commentaires. Vous devriez poster une nouvelle question, en référence à celle-ci.

— chl

66

Qu'est-ce qu'un estimateur de
différences dans les différences? Différence de différences (DiD) est un outil permettant d'estimer les effets du traitement en comparant les différences entre les résultats d'un traitement et d'un groupe témoin avant et après le traitement. En général, nous cherchons à estimer l'effet d'un traitement (par exemple, le statut d'union, les médicaments, etc.) sur un résultat (par exemple, le salaire, la santé, etc.) comme dans où sont des effets fixes individuels (les caractéristiques des individus qui ne changent pas dans le temps), sont des effets fixes dans le temps, sont des covariables variant dans le temps, comme l'âge des individus, et $D_i$ $Y_i$

Y_{i t} = α_{i} + λ_{t} + ρ D_{i t} + X_{i t}^{'} β + ϵ_{i t}

$Y_{it} = \alpha_i + \lambda_t + \rho D_{it} + X'_{it}\beta + \epsilon_{it}$

α_{i}

$\alpha_i$

λ_{t}

$\lambda_t$

X_{i t}

$X_{it}$

ϵ_{i t}

$\epsilon_{it}$ est un terme d'erreur. Les individus et le temps sont indexés par et , respectivement. S'il existe une corrélation entre les effets fixes et estimation de cette régression via MCO sera biaisée car les effets fixes ne sont pas contrôlés. C'est le biais de variable omis typique .

i

$i$

t

$t$

D_{i t}

$D_{it}$

Pour voir l'effet d'un traitement, nous aimerions connaître la différence entre une personne dans un monde dans lequel elle a reçu le traitement et un autre dans lequel elle ne le fait pas. Bien entendu, un seul d'entre eux est toujours observable dans la pratique. Par conséquent, nous recherchons des personnes présentant les mêmes tendances avant traitement. Supposons que nous ayons deux périodes et deux groupes . Ensuite, en supposant que les tendances dans les groupes de traitement et de contrôle se seraient poursuivies de la même manière qu’avant en l’absence de traitement, nous pouvons estimer l’effet du traitement comme $t = 1, 2$ $s = A,B$

ρ = (E [Y_{i s t} | s = A, t = 2] - E [Y_{i s t} | s = A, t = 1]) - (E [Y_{i s t} | s = B, t = 2] - E [Y_{i s t} | s = B, t = 1])

$\rho = (E[Y_{ist}|s=A,t=2] - E[Y_{ist}|s=A,t=1]) - (E[Y_{ist}|s=B,t=2] - E[Y_{ist}|s=B,t=1])$

Graphiquement, cela ressemblerait à quelque chose comme ça: entrez la description de l'image ici

Vous pouvez simplement calculer ces moyens manuellement, c’est-à-dire obtenir le résultat moyen du groupe pour les deux périodes et prendre leur différence. Ensuite, obtenez le résultat moyen du groupe dans les deux périodes et prenez leur différence. Ensuite, prenez la différence entre les différences et c'est l'effet du traitement. Cependant, il est plus pratique de le faire dans un cadre de régression car cela vous permet $A$ $B$

contrôler les covariables
pour obtenir des erreurs types pour l'effet du traitement afin de voir s'il est significatif

Pour ce faire, vous pouvez suivre l'une des deux stratégies équivalentes. Générez un mannequin de groupe de contrôle égal à 1 si une personne appartient au groupe et à 0 sinon, générez un mannequin temporel égal à 1 si et 0 sinon, et ensuite régresser $\text{treat}_i$ $A$ $\text{time}_t$ $t=2$

Y_{i t} = β_{1} + β_{2} ({treat}_{i}) + β_{3} ({time}_{t}) + ρ ({treat}_{i} \cdot {time}_{t}) + ϵ_{i t}

$Y_{it} = \beta_1 + \beta_2 (\text{treat}_i) + \beta_3 (\text{time}_t) + \rho (\text{treat}_i \cdot \text{time}_t) + \epsilon_{it}$

Ou vous générez simplement une valeur factice qui égale 1 si une personne appartient au groupe de traitement ET que la période correspond à la période post-traitement et est égale à zéro sinon. Ensuite, vous feriez régresser $T_{it}$

Y_{i t} = β_{1} γ_{s} + β_{2} λ_{t} + ρ T_{i t} + ϵ_{i t}

$Y_{it} = \beta_1 \gamma_s + \beta_2 \lambda_t + \rho T_{it} + \epsilon_{it}$

où est encore une fois un mannequin pour le groupe de contrôle et sont des mannequins du temps. Les deux régressions vous donnent les mêmes résultats pour deux périodes et deux groupes. La deuxième équation est plus générale, car elle s’étend facilement à plusieurs groupes et périodes. Dans les deux cas, voici comment vous pouvez estimer le paramètre différence des différences de manière à inclure des variables de contrôle (je les ai laissées de côté pour ne pas les encombrer, mais vous pouvez simplement les inclure) et obtenir des erreurs types pour inférence. $\gamma_s$ $\lambda_t$

Pourquoi l’estimateur des différences de différences est-il utile?
Comme indiqué précédemment, DiD est une méthode permettant d'estimer les effets du traitement à l'aide de données non expérimentales. C'est la fonctionnalité la plus utile. DiD est également une version de l'estimation des effets fixes. Alors que le modèle à effets fixes suppose , DiD émet une hypothèse similaire, mais au niveau du groupe, . Donc, la valeur attendue du résultat ici est la somme d'un groupe et d'un effet temporel. Alors quelle est la différence? Pour SAVIEZ aussi longtemps que vos sections répétées ne vous des données de panel besoin pas nécessairement proviennent de la même unité globale . Cela rend DiD applicable à un éventail de données plus large que les modèles à effets fixes standard qui nécessitent des données de panneau. $E(Y_{0it}|i,t) = \alpha_i + \lambda_t$ $E(Y_{0it}|s,t) = \gamma_s + \lambda_t$ $s$

Pouvons-nous faire confiance aux différences dans les différences?
L'hypothèse la plus importante dans DiD est l'hypothèse des tendances parallèles (voir la figure ci-dessus). Ne faites jamais confiance à une étude qui ne montre pas graphiquement ces tendances! Les journaux des années 1990 auraient pu s'en tirer, mais notre compréhension de DiD est bien meilleure. S'il n'y a pas de graphique convaincant montrant les tendances parallèles des résultats avant traitement pour les groupes de traitement et de contrôle, soyez prudent. Si l'hypothèse des tendances parallèles est valable et que nous pouvons exclure de manière crédible tout autre changement variant dans le temps susceptible de fausser le traitement, DiD est une méthode fiable.

Une autre mise en garde s'impose en ce qui concerne le traitement des erreurs types. Avec de nombreuses années de données, vous devez ajuster les erreurs standard pour l'autocorrélation. Cela a été négligé dans le passé, mais depuis Bertrand et al. (2004) "À quel degré devrions-nous faire confiance aux estimations de différences-dans-différences?" nous savons que c'est un problème. Dans le document, ils proposent plusieurs solutions pour traiter l’autocorrélation. Le plus simple est de regrouper sur l'identificateur de panneau individuel ce qui permet une corrélation arbitraire des résidus entre les séries temporelles individuelles. Ceci corrige à la fois l'autocorrélation et l'hétéroscédasticité.

Pour d'autres références, voir ces notes de cours de Waldinger et Pischke .

— Andy
source

6

Wikipedia a une entrée décente sur ce sujet , mais pourquoi ne pas simplement utiliser une régression linéaire permettant des interactions entre vos variables d'intérêt indépendantes? Cela me semble plus interprétable. Vous pourrez ensuite vous renseigner sur l’ analyse de pentes simples (dans le livre de Cohen et al, gratuit sur Google Livres) si vos variables d’intérêt sont quantitatives.

— Stephen Turner
source

0

C'est une technique largement utilisée en économétrie pour examiner l'influence d'un événement exogène dans une série chronologique. Vous choisissez deux groupes de données distincts concernant avant et après l'événement étudié. Le livre Introduction to Econometrics de Wooldridge est une bonne référence pour en savoir plus .

— Carlos Dutra
source

2

Comme réponse non technique concise, cela est complémentaire à la réponse d'Andy, mais je ne pense pas que cela couvre: "Pouvons-nous réellement faire confiance aux estimations de différence de différence?"

— Silverfish

0

Prudent:

Deux points supplémentaires méritent d’être signalés. Premièrement, 80 des 92 articles originaux de DD ont un problème potentiel avec les termes d'erreur groupés car l'unité d'observation est plus détaillée que le niveau de variation (un point discuté par Donald et Lang [2001]). Seulement 36 de ces articles traitent de ce problème, soit en regroupant les erreurs standard, soit en agrégeant les données. Deuxièmement, plusieurs techniques sont utilisées (de manière plus ou moins informelle) pour faire face à la possible endogénéité de la variable d’intervention. Par exemple, trois articles incluent une variable dépendante retardée dans l’équation (1), sept incluent une tendance temporelle spécifique aux états traités, quinze tracent des graphiques pour examiner la dynamique de l’effet du traitement, trois examinent s’il existe un «effet» avant. la loi, deux testent si l'effet est persistant, et onze tentent formellement de faire des triples différences (DDD) en trouvant un autre groupe de contrôle. Dans Bertrand, Duflo et Mullainathan [2002], nous montrons que la plupart de ces techniques n'atténuent pas les problèmes de corrélation en série.

(Bertrand, Duflo et Mullainathan 2004, 253)

— Nouveau ici
source