Un contre-exemple
Le problème ne semble pas être cette indépendance moyenne (la condition où ) implique que et sont pas corrélés. Si et ne sont pas corrélés, il n'est généralement pas vrai qu'ils sont indépendants de la moyenne. Cela ne semble donc pas problématique pour l'instant.E[Y|X]=E[Y]YXXY
Cependant, supposons que vous ayez une relation (que nous pouvons appeler causale) définie comme , où est distribué avec une distribution normale standard et est distribué avec une distribution de Rademacher de sorte que ou , chacun avec la probabilité ( voir cet article Wikipedia ). Notez alors que . Sous votre définition, cette relation ne serait pas Causa encore si dépend clairement .Y=WXXWW=1−11/2E[Y|X]=E[Y]YX
Un exemple d'une façon formelle de penser la causalité
Pour vous donner peut-être une façon plus claire et plus mathématique de considérer la causalité, prenez l'exemple suivant. (J'emprunte cet exemple au livre "Mostly Harmless Econometrics.") Supposons que vous vouliez analyser l'effet de l'hospitalisation sur la santé. Définissez comme une mesure de la santé de l'individu etYiiDi∈{0,1}pour indiquer si cette personne a été hospitalisée ou non. Dans notre première tentative, supposons que nous examinions la différence moyenne de santé des deux types d'individus:
E[Yi|Di=1]−E[Yi|Di=0].
À première vue, vous remarquerez peut-être, contre intuitivement, que les personnes qui ont été hospitalisées ont en fait une moins bonne santé que celles qui ne l'ont pas été. Cependant, aller à l'hôpital ne rend certainement pas les gens plus malades. Il existe plutôt un biais de sélection. Les personnes qui vont à l'hôpital sont celles qui sont en moins bonne santé. Donc, cette première mesure ne fonctionne pas. Pourquoi? Parce que nous ne nous intéressons pas seulement aux différences
observées , mais plutôt aux différences potentielles (nous voulons savoir ce qui se passerait dans le monde contrefactuel).
Définissez le résultat potentiel d'un individu comme suit:
est la santé de l'individu s'il n'était pas allé à l'hôpital, qu'il y soit allé ou non (nous voulons penser aux contrefactuels) et de la même manière, est la santé de l'individu est qu'il est allé. Maintenant, écrivez le résultat réel observé en termes de potentiels,
Ainsi, . Maintenant, nous pouvons définir l'effet causal comme
Potential Outcome={Y1,iY0,iif Di=1if Di=0.
Y0,iiY1,iYi={Y1,iY0,iif Di=1if Di=0.
Yi=Y0,i+(Y1,i−Y0,i)DiY1,i−Y0,i . Cela fonctionne parce que c'est en termes de potentiels. Supposons maintenant que nous examinions à nouveau les différences observées de santé moyenne:
Notez que le terme peut être interprété comme l'effet moyen du traitement sur le traité et comme biais dans la sélection. Maintenant, si le traitement est assigné au hasard, alors nous avons
E[Yi|Di=1]−E[Yi|Di=0]=E[Y1,i|Di=1]−E[Y0,i|Di=1]+E[Y0,i|Di=1]−E[Y0,i|Di=0].
E[Y1,i|Di=1]−E[Y0,i|Di=1]E[Y0,i|Di=1]−E[Y0,i|Di=0]DiE[Yi|Di=1]−E[Yi|Di=0]=E[Y1,i|Di]−E[Y0,i|Di=0]=E[Y1,i|Di]−E[Y0,i|Di=1]=E[Y1,i−Y0,i|Di=1]=E[Y1,i−Y0,i],
où nous voyons que est l'effet causal moyen qui nous intéresse C'est une façon fondamentale de penser la causalité.
E[Y1,i−Y0,i]