J'ai un ensemble de données avec 8000 grappes et 4 millions d'observations. Malheureusement, mon logiciel statistique, Stata, fonctionne assez lentement lorsque j'utilise sa fonction de données de panel pour la régression logistique: xtlogit
même avec un sous-échantillon de 10%.
Cependant, lorsque vous utilisez la logit
fonction non- panneau , les résultats apparaissent beaucoup plus tôt. Par conséquent, je pourrai peut-être bénéficier de l'utilisation logit
de données modifiées qui tiennent compte des effets fixes.
Je crois que cette procédure est inventée la "procédure à effets fixes de Mundlak" (Mundlak, Y. 1978. Regroupement de séries chronologiques et de données transversales. Econometrica, 46 (1), 69-85.)
J'ai trouvé une explication intuitive de cette procédure dans un article d' Antonakis, J., Bendahan, S., Jacquart, P., et Lalive, R. (2010). Sur les allégations causales: un examen et des recommandations. The Leadership Quarterly, 21 (6). 1086-1120. Je cite:
Une façon de contourner le problème des effets fixes omis et d'inclure toujours les variables de niveau 2 consiste à inclure les moyennes de cluster de toutes les covariables de niveau 1 dans le modèle estimé (Mundlak, 1978). Les moyennes des grappes peuvent être incluses sous forme de régresseurs ou soustraites (c.-à-d. Centrage moyen des grappes) de la covariable de niveau 1. Les moyennes des grappes sont invariantes au sein des grappes (et varient selon les grappes) et permettent une estimation cohérente des paramètres de niveau 1 comme si des effets fixes avaient été inclus (voir Rabe-Hesketh et Skrondal, 2008).
Par conséquent, le centrage par grappes semble idéal et pratique pour résoudre mon problème de calcul. Cependant, ces articles semblent être orientés vers la régression linéaire (OLS).
Cette méthode de centrage en grappes est-elle également applicable pour la "réplication" de régression logistique binaire à effets fixes?
Une question plus technique qui devrait aboutir à la même réponse serait: le xtlogit depvar indepvars, fe
jeu de données A est-il égal au logit depvar indepvars
jeu de données B lorsque le jeu de données B est la version centrée sur la moyenne des clusters du jeu de données A?
Une difficulté supplémentaire que j'ai trouvée dans ce centrage en grappes est de savoir comment faire face aux mannequins. Parce que les variables muettes sont soit 0 soit 1, sont-elles identiques dans la régression à effets fixes et aléatoires? Ne devraient-ils pas être «centrés»?