Interprétation des coefficients pour la régression de Poisson


8

Je ne comprends pas comment interpréter le coefficient d'une régression de Poisson par rapport au coefficient d'une régression OLS.

Supposons que j'ai des données de séries chronologiques, ma variable de gauche est le nombre de matchs gagnés par an et ma principale variable de droite est la valeur NASDAQ. Si ma spécification préférée est d'interpréter le modèle en termes de pourcentage, je prends la transformation du journal des jeux gagnés. Je peux également prendre le journal du NASDAQ pour dire combien une augmentation de 1% du NASDAQ augmenterait le pourcentage de matchs gagnés. Maintenant, je reconnais qu'un modèle de Poisson pourrait avoir un sens parce que les données pour les jeux gagnés sont des chiffres et non continus. Je lance la régression avec, disons, beaucoup, beaucoup de variables de contrôle.

Ne ferais-je pas une transformation de journal sur les jeux gagnés et n'utiliserais-je que des jeux? Lorsque j'obtiens les coefficients, dois-je faire une sorte de calcul des effets marginaux (comme cela peut être fait pour probit)?
Comment interpréter ces coefficients?
Comment comparer l'interprétation du Poisson à l'OLS - l'OLS qui est log-transformé ou l'OLS qui ne l'est pas?

Je sais que ce genre de question a déjà été posée, mais je ne comprends toujours pas très bien.


Réponses:


10

Ne pas être critique, mais c'est une sorte d'exemple étrange. Il n'est pas clair que vous fassiez vraiment l'analyse des séries chronologiques, ni ce que le NASDAQ aurait à voir avec le nombre de matchs gagnés par une équipe. Si vous êtes intéressé à dire quelque chose sur le nombre de matchs gagnés par une équipe, je pense qu'il serait préférable d'utiliser la régression logistique binaire, étant donné que vous savez probablement combien de jeux sont joués. La régression de Poisson est la plus appropriée pour parler de dénombrements lorsque le total possible n'est pas bien contraint , ou du moins n'est pas connu.

La façon dont vous interpréteriez vos bêtas dépend, en partie, du lien utilisé - il est possible d'utiliser le lien d'identité, même si le lien du journal est plus courant (et généralement plus approprié). Si vous utilisez le lien du journal, vous ne prendriez probablement pas le journal de votre variable de réponse - le lien le fait essentiellement pour vous. Prenons un cas abstrait, vous avez un modèle de Poisson utilisant le lien de journal comme suit: alternativement,

y^=exp(β^0)exp(β^1)x
y^=exp(β^0+β^1x)

(EDIT: je retire les "chapeaux" des bêtas dans ce qui suit, car ils sont moches, mais ils doivent toujours être compris.)

Avec une régression OLS normale, vous prédisez la moyenne d'une distribution gaussienne de la variable de réponse conditionnelle aux valeurs des covariables. Dans ce cas, vous prédisez la moyenne d'une distribution de Poisson de la variable de réponse conditionnelle aux valeurs des covariables. Pour OLS, si un cas donné était supérieur de 1 unité à votre covariable, vous vous attendez, toutes choses étant égales par ailleurs, la moyenne de cette distribution conditionnelle à unités plus élevée. Ici, si un cas donné était supérieur de 1 unité, ceteris paribus , vous vous attendez à ce que la moyenne conditionnelle soit fois plus élevée. Par exemple, ditesβ1eβ1 β1=2, alors dans la régression normale, il est 2 unités plus élevé (ie, +2), et ici il est 7,4 fois plus élevé (ie, x 7,4). Dans les deux cas, est votre interception ; dans notre équation ci-dessus, considérons la situation où , puis exp , et le côté droit se réduit à exp ( ), ce qui vous donne la moyenne de lorsque toutes les covariables sont égales à 0. β0x=0(β1)x=1β0y

Il y a deux ou trois choses qui peuvent prêter à confusion à ce sujet. Premièrement, prédire la moyenne d'une distribution de Poisson n'est pas la même chose que prédire la moyenne d'un gaussien. Avec une distribution normale, la moyenne est la valeur la plus probable. Mais avec le Poisson, la moyenne est souvent une valeur impossible (par exemple, si votre moyenne prédite est 2,7, ce n'est pas un compte qui pourrait exister). De plus, normalement, la moyenne n'est pas liée au niveau de dispersion (c.-à-d. L'écart-type), mais avec la distribution de Poisson, la variance est nécessairement égale à la moyenne (bien que, souvent, cela ne soit pas le cas en pratique, ce qui entraîne des complexités supplémentaires). Enfin, ces exponentiations compliquent les choses; si, au lieu d'un changement relatif, vous vouliez connaître la valeur exacte, vous devriez commencer à 0 (c.-à-d.eβ0) et multipliez votre chemin fois. Pour prédire une valeur spécifique, il est plus facile de résoudre l'expression entre parenthèses dans l'équation du bas, puis d'exponentier; cela rend le sens de la bêta moins clair, mais les calculs sont plus faciles et réduisent les risques d'erreur. x


Merci de votre aide! Oui, je suis d'accord que l'exemple est terrible. Merci pour l'abstraction. Je comprends comment interpréter OLS. Une augmentation de 1 unité de x entraîne une augmentation de beta_1 de y. Si je fais une transformation logarithmique en y, alors une augmentation de 1 unité de x entraîne une augmentation de 100 * beta_1% de y. Je ne comprends pas quoi faire avec Poisson. Si je connais beta_1, une augmentation de 1 unité de x entraîne une augmentation de y?
user1690130

C'est dans la réponse, au 3e paragraphe. Une augmentation de 1 unité de x entraîne une augmentation de exp ( ) fois en y. Supposons que votre «ancien» y était 10, et , puis exp ( ) = 7,4, et y serait 10 fois 7,4, c'est-à-dire 74. S'il y avait une autre observation qui était encore 1 unité plus haute, ce serait 74 * 7,4, etc.β1β1=2β1
gung - Réintègre Monica

Je ne comprends pas car cela semble dépendre des valeurs de x et y? Y a-t-il des «effets marginaux» que les gens ont tendance à subir? Par exemple, les gens n'utilisent-ils pas mfx dans Stata pour déclarer des estimations probit?
user1690130

1
Je ne suis pas ça. Vous ne comparez pas OLS à Poisson; ce sont différents types de modèles pour différents types de situations / phénomènes. Ce ne sont pas 2 modèles dif de la même chose où 1 modèle pourrait être un meilleur compte que l'autre. Vous ne compareriez pas un chaton et un arbre de Noël pour voir si 1 était meilleur. Je ne comprends pas très bien comment vous utilisez l'expression "effet marginal", si vous voulez dire l'effet d'un prédicteur ignorant les effets de toutes les autres variables (comme l'effet marginal d'un facteur dans l'ANOVA), puis exp ( ) est l'effet multiplicatif marginal de . β1x1
gung - Réintégrer Monica

1
Comme @gung, je ne sais pas trop ce que vous essayez de faire. Mais si vous souhaitez comparer les résultats des deux modèles, vous pouvez tracer les valeurs prédites de chacun par rapport à l'autre dans un nuage de points. La comparaison des coefficients n'a pas de sens.
Peter Flom
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.