OLS vs Poisson GLM avec lien d'identité

Ma question révèle ma mauvaise compréhension de la régression de Poisson et des GLM en général. Voici quelques fausses données pour illustrer ma question:

### some fake data
x=c(1:14)
y=c(0,  1,  2,  3,  1,  4,  9, 18, 23, 31, 20, 25, 37, 45)

Quelques fonctions personnalisées pour retourner psuedo-R2:

### functions of pseudo-R2

psuR2 <- function(null.dev, model.dev) { 1 - (model.dev / null.dev)}

predR2 <- function(actuals, predicted) { 1 - (sum((actuals - predicted)^2)) / sum((actuals - mean(actuals))^2)}

Ajustement de quatre modèles: OLS, GLM gaussien avec lien d'identité, Poisson GLM avec lien log, Poisson GLM avec lien d'identité

#### OLS MODEL
mdl.ols=lm(y~x)
summary(mdl.ols)
pred.ols = predict(mdl.ols)

summary(mdl.ols)$r.squared
predR2(y, pred.ols)

#### GLM MODEL, family=gaussian(link="identity")
mdl.guass <- glm(y~x, family=gaussian(link="identity"), maxit=500)
summary(mdl.guass)
pred.guass = predict(mdl.guass)

psuR2(mdl.guass$null.deviance, mdl.guass$deviance)
predR2(y, pred.guass)

#### GLM MODEL, family=possion (canonical link)
mdl.poi_log <- glm(y~x, family=poisson(link="log"), maxit=500)
summary(mdl.poi_log)
pred.poi_log= exp(predict(mdl.poi_log))  #transform

psuR2(mdl.poi_log$null.deviance, mdl.poi_log$deviance)
predR2(y, pred.poi_log)

#### GLM MODEL, family=poisson((link="identity")
mdl.poi_id <- glm(y~x, family=poisson(link="identity"), start=c(0.5,0.5), maxit=500)
summary(mdl.poi_id)
pred.poi_id = predict(mdl.poi_id)

psuR2(mdl.poi_id$null.deviance, mdl.poi_id$deviance)
predR2(y, pred.poi_id)

Enfin, tracez les prédictions:

#### Plot the Fit
plot(x, y) 
lines(x, pred.ols)
lines(x, pred.guass, col="green")
lines(x,pred.poi_log, col="red")
lines(x,pred.poi_id, col="blue")

J'ai 2 questions:

Il apparaît que les coefficients et prédictions issus de l'OLS et du GLM gaussien avec lien d'identité sont exactement les mêmes. Est-ce toujours vrai?
Je suis très surpris que les estimations et les prévisions de l'OLS soient très différentes du GLM de Poisson avec lien d' identité . Je pensais que les deux méthodes essayeraient d'estimer E (Y | X). À quoi ressemble la fonction de vraisemblance lorsque j'utilise le lien d'identité pour Poisson?

generalized-linear-model poisson-distribution

— William Chiu
source

Connexes: stats.stackexchange.com/questions/142338/…

— kjetil b halvorsen

Si vous souhaitez faire des moindres carrés pour approximer le modèle de Poisson avec lien d'identité, vous pouvez également ajuster un modèle des moindres carrés pondérés, mdl.wols = lm (y ~ x, poids = 1 / log (y + 1.00000000001)) où le journal (y + 1.00000000001) est alors prise comme première estimation de la variance (sqrt (y + 1E-10)) fonctionne également - les estimations de tels modèles seraient très proches de celles du GLM de Poisson avec lien d'identité ...

— Tom Wenseleers

Oui, c'est la même chose. MLE pour un gaussien est le moins de carrés, donc quand vous faites un GLM gaussien avec un lien d'identité, vous faites de l'OLS.
a) " Je pensais que les deux méthodes essaieraient d'estimer E (Y | X) "

En effet, ils le font, mais la manière dont l'espérance conditionnelle est estimée en fonction des données n'est pas la même. Même si nous ignorons la distribution (et donc comment les données entrent dans la vraisemblance) et pensons au GLM uniquement en termes de moyenne et de variance (comme s'il ne s'agissait que d'une régression pondérée), la variance d'un Poisson augmente avec la moyenne, donc les poids relatifs des observations seraient différents.

b) "À quoi ressemble la fonction de vraisemblance lorsque j'utilise le lien d'identité pour Poisson? "

$\mathcal{L}(\beta_0,\beta_1) = \prod_i e^{-\lambda_i}\lambda_i^{y_i}/y_i!$

$\qquad\qquad\,=\exp(\sum_i -\lambda_i+{y_i}\log(\lambda_i)-\log{(y_i!)}\,)\quad$ où $\lambda_i=\beta_0+\beta_1 x_i$

$\qquad\qquad\,=\exp(\sum_i -(\beta_0+\beta_1 x_i)+{y_i}\log(\beta_0+\beta_1 x_i)-\log{(y_i!)}\,)$

— Glen_b -Reinstate Monica
source

Une élaboration sur le deuxième point de Glen_b. Une histoire que je me suis racontée, que j'ai trouvée assez claire, est que plus la moyenne conditionnelle estimée augmente dans le modèle de poisson, plus le modèle devient tolérant des valeurs de données loin de la moyenne conditionnelle. Comparez cela au modèle linéaire droit, qui est uniformément tolérant quelle que soit la moyenne conditionnelle estimée.

— Matthew Drury

@Glen_b, puis-je vous demander de clarifier ce que vous avez dit: "d'où la façon dont les données entrent dans la vraisemblance". Voulez-vous dire que la probabilité de l'ajustement du modèle est différente entre un OLS et un POisson (lien = identité), lorsqu'il est ajusté à l'aide de MLE?. Autrement dit, si vous ajustez OLS à l'aide de MLE, utilisez-vous la fonction de vraisemblance pour la distribution normale pour calculer la probabilité de l'ajustement, par rapport à la fonction de vraisemblance de la distribution de poisson dans ce dernier cas?

— Alex

@Alex Right; OLS est ML à la gaussienne et la vraisemblance gaussienne n'est pas la vraisemblance de Poisson

— Glen_b -Reinstate Monica