Je travaille actuellement sur la mise en œuvre d'une méthode utilisée dans un article populaire intitulé "Je viens de générer deux millions de régressions". L'idée de base derrière cela est qu'il y a certains cas où il n'est pas évident quels contrôles devraient être inclus dans le modèle. Dans ce cas, vous pouvez dessiner au hasard des contrôles, exécuter des millions de régressions différentes, puis voir comment votre variable d'intérêt a réagi. Si elle a généralement le même signe dans toutes les spécifications, nous pouvons la considérer comme plus robuste qu'une variable dont le signe change toujours.
La plupart du papier est très clair. Cependant, l'article pondère toutes ces différentes régressions de la manière suivante: La probabilité intégrée de la spécification donnée est divisée par la somme de toutes les probabilités intégrées pour toutes les spécifications.
Le problème que j'ai est que je ne sais pas comment la probabilité intégrée est liée aux régressions OLS que je voudrais exécuter (dans Stata). La recherche sur des sujets tels que la «probabilité intégrée de données» a été une impasse, car je continue à me heurter à des choses comme la régression logistique à effets mixtes. J'avoue que ces modèles sont trop complexes à saisir pour moi.
Mon travail actuel est qu'il existe différents schémas de pondération utilisés dans la littérature que je comprends (en quelque sorte). Par exemple, il est possible de pondérer chaque régression en fonction de l'indice de rapport de vraisemblance. Il existe même un package R qui utilise le lri comme poids. Naturellement, je voudrais également implémenter l'original.
Aucun conseil?
Lien papier: http://down.cenet.org.cn/upfile/34/2009112141315178.pdf