Problèmes de pièges variables factices

10

J'exécute une grande régression OLS où toutes les variables indépendantes (environ 400) sont des variables fictives. Si tous sont inclus, il y a une parfaite multicolinéarité (le piège variable factice), donc je dois omettre l'une des variables avant d'exécuter la régression.

Ma première question est, quelle variable doit être omise? J'ai lu qu'il vaut mieux omettre une variable présente dans de nombreuses observations plutôt qu'une variable présente dans quelques-unes seulement (par exemple, si presque toutes les observations sont "masculines" ou "féminines" et que quelques-unes sont "inconnues"). ", omettre" mâle "ou" femelle "). Est-ce justifié?

Après avoir exécuté la régression avec une variable omise, je peux estimer la valeur du coefficient de la variable omise parce que je sais que la moyenne globale de toutes mes variables indépendantes devrait être 0. J'utilise donc ce fait pour décaler les valeurs de coefficient pour toutes les variables incluses et obtenir une estimation pour la variable omise. Ma question suivante est de savoir s'il existe une technique similaire qui peut être utilisée pour estimer l'erreur-type de la valeur de coefficient de la variable omise. En l'état, je dois relancer la régression en omettant une variable différente (et en incluant la variable que j'avais omise dans la première régression) afin d'acquérir une estimation d'erreur standard pour le coefficient de la variable initialement omise.

Enfin, je remarque que les estimations de coefficient que j'obtiens (après recentrage autour de zéro) varient légèrement en fonction de la variable omise. En théorie, serait-il préférable d'exécuter plusieurs régressions, chacune omettant une variable différente, puis de faire la moyenne des estimations des coefficients de toutes les régressions?

categorical-data

— James Davison
source

Pourriez-vous clarifier ce que vous entendez par «la moyenne globale de toutes mes variables indépendantes devrait être 0» et comment le savez-vous?

— onestop

Fondamentalement, je veux évaluer toutes les variables par rapport à la moyenne (la moyenne de toutes les variables). Les coefficients de la régression sont relatifs à la variable omise. Ainsi, lorsque je soustrais la moyenne de tous les coefficients (y compris le coefficient de la variable omise de 0) de chaque valeur de coefficient, les valeurs ajustées seront désormais en moyenne de 0, et chaque valeur de coefficient peut être considérée comme la distance de la moyenne.

— James Davison

8

Vous devriez obtenir les «mêmes» estimations, quelle que soit la variable que vous omettez; les coefficients peuvent être différents, mais les estimations de quantités ou d' attentes particulières devraient être les mêmes pour tous les modèles.

Dans un cas simple, soit pour les hommes et 0 pour les femmes. Ensuite, nous avons le modèle: Maintenant, laissez pour les femmes. Alors La valeur attendue de pour les femmes est et également . Pour les hommes, c'est $x_i=1$

\begin{aligned} E [y_{je} ∣ X_{je}] & = X_{je} E [y_{je} ∣ X_{je} = 1] + (1 - X_{je}) E [y_{je} ∣ X_{je} = 0] \\ = E [y_{je} ∣ X_{je} = 0] + [E [y_{je} ∣ X_{je} = 1] - E [y_{je} ∣ X_{je} = 0]] X_{je} \\ = β_{0} + β_{1} X_{je} . \end{aligned}

$\begin{align*} E[y_i \mid x_i] &= x_iE[y_i \mid x_i = 1] + (1 - x_i)E[y_i \mid x_i = 0] \\ &= E[y_i \mid x_i=0] + \left[E[y_i \mid x_i= 1] - E[y_i \mid x_i=0]\right]x_i \\ &= \beta_0 + \beta_1 x_i. \end{align*}$

z_{i} = 1

$z_i=1$

\begin{aligned} E [y_{je} ∣ z_{je}] & = z_{je} E [y_{je} ∣ z_{je} = 1] + (1 - z_{je}) E [y_{je} ∣ z_{je} = 0] \\ = E [y_{je} ∣ z_{je} = 0] + [E [y_{je} ∣ z_{je} = 1] - E [y_{je} ∣ z_{je} = 0]] z_{je} \\ = γ_{0} + γ_{1} z_{je} . \end{aligned}

$\begin{align*} E[y_i \mid z_i] &= z_iE[y_i \mid z_i = 1] + (1 - z_i)E[y_i \mid z_i = 0] \\ &= E[y_i \mid z_i=0] + \left[E[y_i \mid z_i= 1] - E[y_i \mid z_i=0]\right]z_i \\ &= \gamma_0 + \gamma_1 z_i . \end{align*}$

y

$y$

β_{0}

$\beta_0$

γ_{0} + γ_{1}

$\gamma_0 + \gamma_1$

β_{0} + β_{1}

$\beta_0 + \beta_1$ et .

γ_{0}

$\gamma_0$

Ces résultats montrent comment les coefficients des deux modèles sont liés. Par exemple, . Un exercice similaire utilisant vos données devrait montrer que les «différents» coefficients que vous obtenez ne sont que des sommes et des différences les uns des autres. $\beta_1 = -\gamma_1$

— Charlie
source

4

James, tout d'abord pourquoi l'analyse de régression, mais pas l' ANOVA (il y a beaucoup de spécialistes dans ce genre d'analyse qui pourraient vous aider)? Les avantages de l'ANOVA sont que tout ce qui vous intéresse réellement, ce sont les différences dans les moyens des différents groupes décrits par des combinaisons de variables fictives (catégories uniques ou profils). Eh bien, si vous étudiez les impacts de chacune des variables catégorielles que vous incluez, vous pouvez également effectuer une régression.

Je pense que le type de données que vous avez ici est décrit dans le sens d'une analyse conjointe : de nombreux attributs de l'objet (sexe, âge, éducation, etc.) ayant chacun plusieurs catégories, vous omettez donc le profil le plus large, pas seulement une variable fictive. Une pratique courante consiste à coder les catégories dans l'attribut comme suit (ce lien peut être utile, vous ne faites probablement pas d'analyse conjointe ici, mais le codage est similaire): supposons que vous ayez catégories (trois, comme vous l'avez suggéré, masculin, féminin , inconnu) puis, les deux premiers sont codés comme d'habitude, vous incluez deux mannequins (mâle, femelle), donnant si mâle, si femelle, et $n$ $(1, 0)$ $(0, 1)$ $(-1, -1)$ si inconnu. De cette façon, les résultats seront effectivement placés autour du terme d'interception. Vous pouvez cependant coder d'une manière différente, mais vous perdrez l'avantage d'interprétation mentionné. Pour résumer, vous supprimez une catégorie de chaque catégorie et codez vos observations de la manière décrite. Vous incluez également le terme d'interception.

Eh bien, omettre les catégories de profil les plus importantes me semble bon, bien que ce ne soit pas si important, du moins il n'est pas vide je pense. Étant donné que vous codez les variables de manière spécifique, la signification statistique conjointe des variables factices incluses (les deux hommes et les femmes pourraient être testées par le test F) implique la signification de la variable omise.

Il peut arriver que les résultats soient légèrement différents, mais peut-être est-ce le mauvais codage qui influence cela?

— Dmitrij Celov
source

Je vous demande pardon si mon écriture n'est pas claire, il est minuit en Lituanie.

— Dmitrij Celov

Pourquoi votre inconnu (-1, -1) au lieu de (0,0)?

— siamii

1

Sans connaître la nature exacte de votre analyse, avez-vous envisagé le codage des effets? De cette façon, chaque variable représenterait l'effet de ce trait / attribut par rapport à la moyenne générale plutôt qu'à une catégorie particulière omise. Je pense qu'il vous manquera toujours un coefficient pour l'une des catégories / attributs - celui auquel vous attribuez un -1. Pourtant, avec autant de variables muettes, je pense que la grande moyenne ferait un groupe de comparaison plus significatif que n'importe quelle catégorie particulière omise.

— whauser
source