Le cas du «biais d'atténuation» peut être présenté plus clairement si nous examinons le modèle «probit» - mais le résultat est également reporté à la régression logistique.
Sous les modèles de probabilité conditionnelle (modèles logistiques (logit), "probit" et "probabilité linéaire"), nous pouvons postuler un modèle de régression linéaire latente (non observable):
y∗= Xβ+ u
où y∗ est une variable continue non observable (et est la matrice de régresseur). Le terme d'erreur est supposé être indépendant des régresseurs, et suivre une distribution qui a une densité symétrique autour de zéro , et dans notre cas, la distribution normale standard F U ( u ) = Φ ( u ) .XFU( u ) = Φ ( u )
Nous supposons que ce que nous observons, c'est-à-dire la variable binaire , est une fonction indicatrice de l'inobservable y ∗ :yy∗
y= 1siy∗> 0 ,y= 0siy∗≤ 0
y1
P( y= 1 ∣ X) = P( y∗> 0 ∣ X) = P( Xβ+ u > 0 ∣ X) = P(u>−Xβ∣X)=1−Φ(−Xβ)=Φ(Xβ)
la dernière égalité due à la propriété "réfléchissante" de la fonction de distribution cumulative standard, qui provient de la symétrie de la fonction de densité autour de zéro. Notez que bien que nous ayons supposé que uXXXβ
Si nous supposons que Xβ=b0+b1X1+b2X2
P(y=1∣X)=Φ(b0+b1X1+b2X2)(1)
X2X1
y∗=b0+b1X1+ϵ
X2X2∼N(μ2,σ22)
ϵ=u+b2X2∼N(b2μ2,1+b22σ22)
en raison de la fermeture-sous-addition de la distribution normale (et de l'hypothèse d'indépendance). Appliquant la même logique qu'auparavant, nous avons ici
P(y=1∣X1)=P(y∗>0∣X1)=P(b0+b1X1+ϵ>0∣X1)=P(ϵ>−b0−b1X1∣X1)
ϵ
P(y=1∣X1)=1−P⎛⎝⎜ϵ−b2μ21+b22σ22−−−−−−−√≤−(b0+b2μ2)1+b22σ22−−−−−−−√−b11+b22σ22−−−−−−−√X1∣X1⎞⎠⎟
⇒P(y=1∣X1)=Φ⎛⎝⎜(b0+b2μ2)1+b22σ22−−−−−−−√+b11+b22σ22−−−−−−−√X1⎞⎠⎟(2)
(1)(2)
b1 va converger, car il reste un estimateur cohérent, dans le sens où il convergera vers la quantité théorique qui existe réellement dans le modèle (et bien sûr, pas dans le sens où il trouvera de toute façon la "vérité"):
b^1→pb11+b22σ22−−−−−−−√⟹|b^1|<|b1|
qui est le résultat du "biais vers zéro".
ϵ . La distribution logistique n'est pas fermée en cours d'ajout. Cela signifie que si nous omettons une variable pertinente dans la régression logistique, nous créons également des erreurs de distribution, car le terme d'erreur (qui inclut désormais la variable omise) ne suit plus une distribution logistique. Mais cela ne change pas le résultat du biais (voir la note de bas de page 6 du document lié par le PO).