Qu'est-ce qu'un estimateur de
différences dans les différences? Différence de différences (DiD) est un outil permettant d'estimer les effets du traitement en comparant les différences entre les résultats d'un traitement et d'un groupe témoin avant et après le traitement. En général, nous cherchons à estimer l'effet d'un traitement (par exemple, le statut d'union, les médicaments, etc.) sur un résultat (par exemple, le salaire, la santé, etc.) comme dans
où sont des effets fixes individuels (les caractéristiques des individus qui ne changent pas dans le temps), sont des effets fixes dans le temps, sont des covariables variant dans le temps, comme l'âge des individus, etréjeYje
Yit=αi+λt+ρDit+X′itβ+ϵit
αiλtXitϵit est un terme d'erreur. Les individus et le temps sont indexés par et , respectivement. S'il existe une corrélation entre les effets fixes et estimation de cette régression via MCO sera biaisée car les effets fixes ne sont pas contrôlés. C'est le
biais de variable omis typique .
itDit
Pour voir l'effet d'un traitement, nous aimerions connaître la différence entre une personne dans un monde dans lequel elle a reçu le traitement et un autre dans lequel elle ne le fait pas. Bien entendu, un seul d'entre eux est toujours observable dans la pratique. Par conséquent, nous recherchons des personnes présentant les mêmes tendances avant traitement. Supposons que nous ayons deux périodes et deux groupes . Ensuite, en supposant que les tendances dans les groupes de traitement et de contrôle se seraient poursuivies de la même manière qu’avant en l’absence de traitement, nous pouvons estimer l’effet du traitement comme
t=1,2s=A,B
ρ=(E[Yist|s=A,t=2]−E[Yist|s=A,t=1])−(E[Yist|s=B,t=2]−E[Yist|s=B,t=1])
Graphiquement, cela ressemblerait à quelque chose comme ça:
Vous pouvez simplement calculer ces moyens manuellement, c’est-à-dire obtenir le résultat moyen du groupe pour les deux périodes et prendre leur différence. Ensuite, obtenez le résultat moyen du groupe dans les deux périodes et prenez leur différence. Ensuite, prenez la différence entre les différences et c'est l'effet du traitement. Cependant, il est plus pratique de le faire dans un cadre de régression car cela vous permetAB
- contrôler les covariables
- pour obtenir des erreurs types pour l'effet du traitement afin de voir s'il est significatif
Pour ce faire, vous pouvez suivre l'une des deux stratégies équivalentes. Générez un mannequin de groupe de contrôle égal à 1 si une personne appartient au groupe et à 0 sinon, générez un mannequin temporel égal à 1 si et 0 sinon, et ensuite régresser
treatiAtimett=2
Yit=β1+β2(treati)+β3(timet)+ρ(treati⋅timet)+ϵit
Ou vous générez simplement une valeur factice qui égale 1 si une personne appartient au groupe de traitement ET que la période correspond à la période post-traitement et est égale à zéro sinon. Ensuite, vous feriez régresser
Y i t = β 1 γ s + β 2 λ t + ρ T i t + ε i tTit
Yit=β1γs+β2λt+ρTit+ϵit
où est encore une fois un mannequin pour le groupe de contrôle et sont des mannequins du temps. Les deux régressions vous donnent les mêmes résultats pour deux périodes et deux groupes. La deuxième équation est plus générale, car elle s’étend facilement à plusieurs groupes et périodes. Dans les deux cas, voici comment vous pouvez estimer le paramètre différence des différences de manière à inclure des variables de contrôle (je les ai laissées de côté pour ne pas les encombrer, mais vous pouvez simplement les inclure) et obtenir des erreurs types pour inférence.λ tγsλt
Pourquoi l’estimateur des différences de différences est-il utile?
Comme indiqué précédemment, DiD est une méthode permettant d'estimer les effets du traitement à l'aide de données non expérimentales. C'est la fonctionnalité la plus utile. DiD est également une version de l'estimation des effets fixes. Alors que le modèle à effets fixes suppose , DiD émet une hypothèse similaire, mais au niveau du groupe, . Donc, la valeur attendue du résultat ici est la somme d'un groupe et d'un effet temporel. Alors quelle est la différence? Pour SAVIEZ aussi longtemps que vos sections répétées ne vous des données de panel besoin pas nécessairement proviennent de la même unité globale . Cela rend DiD applicable à un éventail de données plus large que les modèles à effets fixes standard qui nécessitent des données de panneau. E ( Y 0 i t | s , t ) = γ s + λ t sE(Y0it|i,t)=αi+λtE(Y0it|s,t)=γs+λts
Pouvons-nous faire confiance aux différences dans les différences?
L'hypothèse la plus importante dans DiD est l'hypothèse des tendances parallèles (voir la figure ci-dessus). Ne faites jamais confiance à une étude qui ne montre pas graphiquement ces tendances! Les journaux des années 1990 auraient pu s'en tirer, mais notre compréhension de DiD est bien meilleure. S'il n'y a pas de graphique convaincant montrant les tendances parallèles des résultats avant traitement pour les groupes de traitement et de contrôle, soyez prudent. Si l'hypothèse des tendances parallèles est valable et que nous pouvons exclure de manière crédible tout autre changement variant dans le temps susceptible de fausser le traitement, DiD est une méthode fiable.
Une autre mise en garde s'impose en ce qui concerne le traitement des erreurs types. Avec de nombreuses années de données, vous devez ajuster les erreurs standard pour l'autocorrélation. Cela a été négligé dans le passé, mais depuis Bertrand et al. (2004) "À quel degré devrions-nous faire confiance aux estimations de différences-dans-différences?" nous savons que c'est un problème. Dans le document, ils proposent plusieurs solutions pour traiter l’autocorrélation. Le plus simple est de regrouper sur l'identificateur de panneau individuel ce qui permet une corrélation arbitraire des résidus entre les séries temporelles individuelles. Ceci corrige à la fois l'autocorrélation et l'hétéroscédasticité.
Pour d'autres références, voir ces notes de cours de Waldinger et Pischke .