Je recommande de vérifier la plupart des économétries inoffensives - ils ont une bonne explication de cela à un niveau intuitif.
Le problème que vous essayez de résoudre est le biais de sélection. Si une variable est corrélée avec les résultats potentiels et avec la probabilité de recevoir un traitement, alors si vous trouvez que le résultat attendu du traité est meilleur que le résultat attendu du non traité, cela peut être une découverte fallacieuse puisque les traités ont tendance à avoir un plus élevé et donc un plus élevé . Le problème se pose parce que rend corrélé avec le traitement.xiy0i,y1ixy0i,y1ixy0i,y1i
Ce problème peut être résolu en contrôlant . Si nous pensons que la relation entre les résultats potentiels et les variables est linéaire, nous le faisons simplement en incluant dans une régression avec une variable fictive pour le traitement, et la variable fictive interagit avec . Bien sûr, la régression linéaire est flexible car nous pouvons également inclure des fonctions de . Mais que se passe-t-il si nous ne voulons pas imposer une forme fonctionnelle? Ensuite, nous devons utiliser une approche non paramétrique: l'appariement.xxxxx
Avec l'appariement, nous comparons les observations traitées et non traitées avec des similaires . Nous en ressortons avec une estimation de l'effet du traitement pour toutes les valeurs (ou petites plages de valeurs ou «seaux») pour lesquelles nous avons à la fois des observations traitées et non traitées. Si nous n'avons pas beaucoup de telles valeurs ou de tels compartiments, en particulier si est un vecteur de grande dimension, il est donc difficile de trouver des observations proches les unes des autres, alors il est utile de projeter cet espace sur une dimension.xxxx
C'est ce que fait l'appariement des scores de propension. Si sont pas corrélés avec un traitement donné , alors il s'avère qu'ils sont également non corrélés avec un traitement donné où est la probabilité de traitement donnée , c'est-à-dire le score de propension de .y0i,y1ixip(xi)p(x)xx
Voici votre intuition: si nous trouvons un sous-échantillon d'observations avec un score de propension très similaire , alors pour ce sous-échantillon, les groupes traités et non traités ne sont pas corrélés avec . Chaque observation est également susceptible d'être traitée ou non; cela implique que toute observation traitée est également susceptible de provenir de l'une des valeurs du sous-échantillon. Puisque est ce qui détermine les résultats potentiels dans notre modèle, cela implique que, pour ce sous-échantillon, les résultats potentielsp(x)xxxy0i,y1ine sont pas corrélés au traitement. Cette condition garantit que la différence moyenne de résultat du sous-échantillon entre traité et non traité est une estimation cohérente de l'effet moyen du traitement sur ce sous-échantillon, c'est-à-dire
E[yi|Treated,p(x)]−E[yi|Untreated,p(x)]
est une estimation cohérente de l'effet moyen du traitement local.
Lectures complémentaires:
Faut-il vraiment utiliser l'appariement des scores de propension dans la pratique?
Question connexe comparant l'appariement et la régression