Correspondance du score de propension avec les données du panel

13

J'ai un ensemble de données longitudinales d'individus et certains d'entre eux ont été soumis à un traitement et d'autres non. Tous les individus sont inclus dans l'échantillon de la naissance jusqu'à l'âge de 18 ans et le traitement a lieu à un âge compris entre cette plage. L'âge du traitement peut différer d'un cas à l'autre. En utilisant l'appariement des scores de propension, je voudrais associer les unités traitées et témoins par paires avec l'appariement exact de l'année de naissance de sorte que je puisse suivre chaque paire de leur année de naissance jusqu'à l'âge de 18 ans. En tout, il y a environ 150 personnes traitées et 4000 personnes non traitées. Après l'appariement, l'idée est d'utiliser une stratégie de différence dans les différences pour estimer l'effet du traitement.

Le problème auquel je suis confronté en ce moment est de faire la correspondance avec les données du panel. J'utilise la psmatch2commande de Stata et je fais correspondre les caractéristiques des ménages et des individus en utilisant l'appariement des scores de propension. En général, avec les données du panel, il y aura différentes correspondances optimales à chaque âge. Par exemple: si A est traité, B et C sont des témoins, et tous sont nés en 1980, alors A et B peuvent être appariés en 1980 à l'âge 0 tandis que A et C sont appariés en 1981 à l'âge 1 et ainsi de suite . A peut également être associé à ses propres valeurs de prétraitement des années précédentes.

Pour contourner ce problème, j'ai pris la moyenne de toutes les variables variant dans le temps de sorte que l'appariement puisse identifier les individus qui sont en moyenne les plus similaires sur la durée de l'échantillon et je fais l'appariement séparément pour chaque groupe d'âge de 0 à 18 ans. Malheureusement, cela correspond toujours à une unité de contrôle différente pour chaque unité traitée par groupe d'âge.

Si quelqu'un pouvait me diriger vers une méthode pour faire l'appariement par paire avec les données du panel dans Stata, ce serait très apprécié.

stata panel-data propensity-scores

— Andy
source

9

Vous devez essentiellement créer un jeu de données grand format avec toutes les caractéristiques pertinentes pour la procédure de correspondance, effectuer la correspondance sur ce jeu de données transversal, puis utiliser l'ID pour identifier la paire correspondante dans le jeu de données du panneau. Voici quelques détails supplémentaires:

Utilisez reshapepour créer un jeu de données grand format. Formatez les variables de prétraitement de la manière dont vous souhaitez les utiliser dans la procédure d'appariement. Vous pouvez simplement prendre la moyenne de vos variables si vous avez plusieurs observations pour un individu, mais vous pouvez également trouver d'autres moyens (vous pouvez également conserver plusieurs observations des mêmes variables telles que la santé1, la santé2 et les utiliser toutes dans la correspondance ). L'objectif est d'avoir un ensemble de données avec une observation par individu .
À l'aide de cet ensemble de données, effectuez la procédure de correspondance avec psmatch2.
Fusionnez les informations sur les cas correspondants avec l'ensemble de données d'origine. Déposer les cas qui ne correspondent pas, etc. Je ne suis pas sûr des détails ici parce que je ne connais pas vraiment les statistiques et psmatch2mais je pense que vous avez l'idée.

Grâce à ces étapes, vous pouvez faire correspondre les cas sur la base de toutes les informations de prétraitement et vous n'avez qu'une seule correspondance par unité de traitement.

— Greg
source

3

Je ne sais vraiment pas pourquoi ce post a été rejeté parce que cette réponse aide réellement. Je voterai à nouveau. Merci Greg!

— Andy

5

Il n'y a aucun moyen de le faire dans Stata ou tout autre logiciel que je connaisse.

Si vous essayez de corriger un estimateur d'appariement biaisé avec des techniques de données de panel, voici une approche qui peut fonctionner. Si vous pouvez supposer que l'appariement prend en charge une partie, mais pas la totalité du biais de sélection, mais que le biais reste largement constant dans le temps, vous pouvez supprimer la partie invariante dans le temps du biais en construisant des estimations d'appariement distinctes dans chaque période et en prenant la différence.

$t$ $t'$ $Y_0$

E [Y_{0 t} | X, D = 1] - E [Y_{0 t} | X, D = 0] = E [Y_{0 t^{'}} | X, D = 1] - E [Y_{0 t^{'}} | X, D = 0] = B i a s,

$\begin{equation} E[Y_{0t} \vert X, D=1]-E[Y_{0t} \vert X, D=0]=E[Y_{0t'} \vert X, D=1]-E[Y_{0t'} \vert X, D=0]=Bias, \end{equation}$

Δ_{t^{'}}^{M} = Δ^{T T} + B i a s

$\Delta^{M}_{t'}=\Delta^{TT}+Bias$

Δ_{t}^{M} = B i a s

$\Delta^{M}_{t}=Bias$

Δ_{t^{'}}^{M} - Δ_{t}^{M} = Δ^{T T}

$\Delta^{M}_{t'}-\Delta^{M}_{t}=\Delta^{TT}$

Les articles de Heckman, Ichimura, Smith et Todd 1998 Econometrica et Eichler et Lechner 2002 Labor Economics sont des exemples de cette approche. En revanche, 150 observations traitées peuvent ne pas être suffisantes pour que cette approche fonctionne.

— Dimitriy V. Masterov
source

1

Il devrait être possible de faire correspondre les individus par paires pour les données de panel car ces deux articles ( paper1 , paper2 ) le font également. Malheureusement, les auteurs ne disent pas exactement comment ils l'ont fait. L'idée que vous décrivez avec Heckman et al (1998) est exactement la raison de l'utilisation de Diff-in-Diff après l'appariement par paire.

— Andy

Il n'est pas clair pour moi qu'ils effectuent des comparaisons de groupes spéciaux, mais vous avez raison de dire que les procédures sont vagues. Les auteurs ont écrit pscore, ce qui indique une certaine volonté d'aider les autres. Peut-être qu'un e-mail leur clarifiera les choses. Dites ce qu'ils disent. C'est une question importante.

— Dimitriy V. Masterov

0

Pas:

Comme cela a été mentionné en détail par Greg, vous pouvez utiliser un ensemble de données transversales, soit sur les moyens de prétraitement, soit sur une période de prétraitement spécifique pour générer l'appariement.
En utilisant l'ensemble du panneau, vous affectez des variables d'indicateur pour
a. traitéIndividuel
b. traitéesPériode, cette dernière est égale à zéro dès que le traitement a lieu pour l'individu traité.

Étant donné que le moment où la période de traitement traitée passe de 0 à 1 varie selon les individus et ne passe jamais à 1 pour non traité, vous devez attribuer le même point de départ de la correspondance traitée à la correspondance non traitée. C'est intuitif mais j'aimerais quand même voir une bonne référence qui justifie cette approche que je n'ai pas trouvée jusqu'à présent.

La configuration de la régression serait:

depvar = treatedIndvidual + treatedPeriod  + treatedIndvidual*treatedPeriod + controls

où le terme d'interaction vous donne l'effet du traitement.

— Matthias
source

-2

Avez-vous envisagé d'utiliser le commande nnmatch ?

J'utilise cette commande et elle est assez complète. Il prend en compte différents algorithmes d'appariement ainsi que des cas dans lesquels le score de propension est le même pour certains individus du groupe témoin. Bien sûr, le traitement de ce cas dépend de l'algorithme de correspondance, si vous prenez k-le plus proche voisin ou le noyau ou autre.

— Stat Tistician
source

Dans l'article auquel vous avez fait référence, je ne vois aucune mention des données du panel. L'avez-vous utilisé pour les données du panel? Si oui, veuillez être précis et fournir un code pour répondre à la question d'OP.

— Mesures

La correspondance exacte est plus facile, mais nnmatch global est plus compliqué car il ne stocke pas les ID correspondants dans l'ensemble de données actuel mais dans un autre. Je vais me retrouver avec un ensemble de données pour chaque groupe d'âge qui doit être fusionné avec les données d'origine. La fusion dans ce cas ne fonctionne pas car les caractéristiques de correspondance n'identifient pas de manière unique les individus dans les données d'origine. Malheureusement, cela ne fournit pas de solution.

— Andy