Dans la régression linéaire multiple standard, la capacité d'ajuster les estimations des moindres carrés ordinaires (OLS) en deux étapes provient du théorème de Frisch – Waugh – Lovell . Ce théorème montre que l'estimation d'un coefficient pour un prédicteur particulier dans un modèle linéaire multiple est égale à l'estimation obtenue en régressant les résidus de réponse (résidus d'une régression de la variable de réponse par rapport aux autres variables explicatives) par rapport aux résidus de prédicteur (résidus à partir d'une régression de la variable prédictive par rapport aux autres variables explicatives). Évidemment, vous cherchez une analogie avec ce théorème qui peut être utilisée dans un modèle de régression logistique.
Pour cette question, il est utile de rappeler la caractérisation à variable latente de la régression logistique :
Yi=I(Y∗i>0)Y∗i=β0+βXxi+βZzi+εiεi∼IID Logistic(0,1).
Dans cette caractérisation du modèle, la variable de réponse latente n'est pas observable, et au lieu de cela nous observons l'indicateur qui nous dit si la réponse latente est positive ou non. Cette forme du modèle ressemble à une régression linéaire multiple, sauf que nous utilisons une distribution d'erreur légèrement différente (la distribution logistique au lieu de la distribution normale), et plus important encore, nous n'observons qu'un indicateur indiquant si la réponse latente est positive ou non. .Y∗iYi
Cela crée un problème pour toute tentative de création d'un ajustement en deux étapes du modèle. Ce théorème de Frisch-Waugh-Lovell repose sur la capacité à obtenir des résidus intermédiaires pour la réponse et le prédicteur d'intérêt, pris par rapport aux autres variables explicatives. Dans le cas présent, nous ne pouvons obtenir des résidus qu'à partir d'une variable de réponse "catégorisée". La création d'un processus d'ajustement en deux étapes pour la régression logistique vous obligerait à utiliser les résidus de réponse de cette variable de réponse catégorisée, sans accès à la réponse latente sous-jacente. Cela me semble être un obstacle majeur, et même si cela ne prouve pas l'impossibilité, il semble peu probable qu'il soit possible d'adapter le modèle en deux étapes.
Ci-dessous, je vais vous expliquer ce qui serait nécessaire pour trouver un processus en deux étapes pour s'adapter à une régression logistique. Je ne sais pas s'il existe une solution à ce problème, ou s'il existe une preuve d'impossibilité, mais le matériel ici devrait vous aider à comprendre ce qui est requis.
À quoi ressemblerait une régression logistique en deux étapes? Supposons que nous voulons construire un ajustement en deux étapes pour un modèle de régression logistique où les paramètres sont estimés via une estimation du maximum de vraisemblance à chaque étape. Nous voulons que le processus implique une étape intermédiaire qui correspond aux deux modèles suivants:
Yi=I(Y∗∗i>0)Y∗∗i=α0+αXxi+τi Zi=γ0+γXxi+δiτi∼IID Logistic(0,1),δi∼IID g.
Nous estimons les coefficients de ces modèles (via les MLE) et nous obtenons des valeurs ajustées intermédiaires . Ensuite, dans la deuxième étape, nous ajustons le modèle:α^0,α^X,γ^0,γ^X
Yi=logistic(α^0+α^1xi)+βZ(zi−γ^0−γ^Xxi)+ϵiϵi∼IID f.
Comme spécifié, la procédure a beaucoup d'éléments fixes, mais les fonctions de densité et dans ces étapes ne sont pas spécifiées (bien qu'elles devraient être des distributions à moyenne nulle qui ne dépendent pas des données). Pour obtenir une méthode d'ajustement en deux étapes sous ces contraintes, nous devons choisir et pour garantir que le MLE pour dans cet algorithme d'ajustement de modèle en deux étapes est le même que le MLE obtenu à partir du modèle de régression logistique en une étape au dessus de.gfgfβZ
Pour voir si cela est possible, nous écrivons d'abord tous les paramètres estimés de la première étape:
ℓy|x(α^0,α^X)ℓz|x(γ^0,γ^X)=maxα0,αX∑i=1nlnBern(yi|logistic(α0+αXxi)),=maxγ0,γX∑i=1nlng(zi−γ0−γXxi).
Soit pour que la fonction log-vraisemblance pour la deuxième étape soit:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
ℓy|z|x(βZ)=∑i=1nlnf(yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)).
Nous exigeons que la valeur maximisante de cette fonction soit le MLE du modèle de régression logistique multiple. En d'autres termes, nous avons besoin de:
arg max βXℓy|z|x(βZ)=arg max βXmaxβ0,βZ∑i=1nlnBern(yi|logistic(β0+βXxi+βZzi)).
Je laisse à d'autres le soin de déterminer s'il existe une solution à ce problème ou une preuve d'absence de solution. Je soupçonne que la «catégorisation» de la variable de réponse latente dans une régression logistique rendra impossible de trouver un processus en deux étapes.