J'exécute une grande régression OLS où toutes les variables indépendantes (environ 400) sont des variables fictives. Si tous sont inclus, il y a une parfaite multicolinéarité (le piège variable factice), donc je dois omettre l'une des variables avant d'exécuter la régression.
Ma première question est, quelle variable doit être omise? J'ai lu qu'il vaut mieux omettre une variable présente dans de nombreuses observations plutôt qu'une variable présente dans quelques-unes seulement (par exemple, si presque toutes les observations sont "masculines" ou "féminines" et que quelques-unes sont "inconnues"). ", omettre" mâle "ou" femelle "). Est-ce justifié?
Après avoir exécuté la régression avec une variable omise, je peux estimer la valeur du coefficient de la variable omise parce que je sais que la moyenne globale de toutes mes variables indépendantes devrait être 0. J'utilise donc ce fait pour décaler les valeurs de coefficient pour toutes les variables incluses et obtenir une estimation pour la variable omise. Ma question suivante est de savoir s'il existe une technique similaire qui peut être utilisée pour estimer l'erreur-type de la valeur de coefficient de la variable omise. En l'état, je dois relancer la régression en omettant une variable différente (et en incluant la variable que j'avais omise dans la première régression) afin d'acquérir une estimation d'erreur standard pour le coefficient de la variable initialement omise.
Enfin, je remarque que les estimations de coefficient que j'obtiens (après recentrage autour de zéro) varient légèrement en fonction de la variable omise. En théorie, serait-il préférable d'exécuter plusieurs régressions, chacune omettant une variable différente, puis de faire la moyenne des estimations des coefficients de toutes les régressions?