Pourquoi les moindres carrés ordinaires fonctionnent-ils mieux que la régression de Poisson?


18

J'essaie de faire une régression pour expliquer le nombre d'homicides dans chaque quartier d'une ville. Bien que je sache que mes données suivent une distribution de Poisson, j'ai essayé d'adapter un OLS comme celui-ci:

log(y+1)=α+βX+ϵ

Ensuite, j'ai aussi essayé (bien sûr!) Une régression de Poisson. Le problème est que j'ai de meilleurs résultats dans la régression OLS: le pseudo- est plus élevé (0,71 vs 0,57) et le RMSE également (3,8 vs 8,88. Standardisé pour avoir la même unité).R2

Pourquoi? Est-ce normal? Quel est le problème lors de l'utilisation de l'OLS, quelle que soit la distribution des données?

modifier Suite aux suggestions de kjetil b halvorsen et d'autres, j'ai ajusté les données à travers deux modèles: OLS et Negative Binomial GLM (NB). J'ai commencé par toutes les fonctionnalités dont je dispose, puis j'ai récursivement supprimé une à une les fonctionnalités qui n'étaient pas significatives. OLS est

crjemeunereune=α+βX+ϵ

avec poids = .unereune

summary(w <- lm(sqrt(num/area) ~  RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))

error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area

rmse(error2)
[1] 80.64783

Le N.-B. prédit le nombre de délits, la zone du district étant compensée.

summary(m3 <- glm.nb(num ~  LUM5_single  + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places  + employed  + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))

error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")

rmse(error)
[1] 121.8714

Résidus OLS:

entrez la description de l'image ici

NB résiduels

entrez la description de l'image ici

Donc le RMSE est plus bas dans l'OLS mais il semble que les résidus ne soient pas si normaux ....


Pouvez-vous poster plus de détails? Quelle est la nature des données? c'est-à-dire, quel est le comptage des variables de réponse? quelles sont les variables explicatives?
kjetil b halvorsen

@kjetilbhalvorsen la variable dépendante est le nombre d'homicides par district (112 districts). Les éléments indépendants sont les caractéristiques structurelles de la ville (intersections de rues, POI, etc.)
marcodena

2
Si je montais ce modèle en utilisant une régression de Poisson, j'inclurais log (districtsize) comme décalage pour tenir compte des districts qui n'étaient pas tous de la taille ame. À moins qu'ils ne le soient.
mdewey

1
Quelle est votre justification pour penser que la comparaison de l'OLS avec le p s e u d o - R 2 à partir d'une estimation ML (et le R M S E ), vous donne une indication de la qualité d'un certain modèle? OLS, par construction, maximise R 2 . La régression de poison est-elle construite de manière à maximiser le p s e u d o - R 2 ? Je ne pense pas, et je ne pense pas que cette comparaison soit utile. R2pseuo-R2RMSER2pseuo-R2
coffeinjunky

1
R2z=Journal(y+1)R2y

Réponses:


16

Je soupçonne qu'une partie du problème peut résider dans votre choix de mesure de performance. Si vous mesurez les performances du test à l'aide de RMSE, la formation du modèle pour minimiser le MSE correspond au critère de test, donnant un indice sur ce qui est considéré comme important. Vous pouvez constater que si vous mesurez les performances du test en utilisant la log-vraisemblance négative de l'ensemble de test en utilisant une probabilité de Poisson que le modèle de Poisson fonctionne mieux (comme on pourrait s'y attendre). Cela peut être un problème mineur par rapport aux autres problèmes soulevés, mais cela pourrait être une vérification d'utilité utile.


1
+1. Si l'objectif des PO était la prédiction, il pourrait en fait y avoir une raison d'utiliser un modèle OLS à la place! Néanmoins, l'inférence basée sur l'erreur classique provenant de l'OLS ne peut / ne doit pas être appliquée dans les GLM. On pourrait inspecter les résidus étudiés, ou une meilleure option serait de comparer les modèles avec AIC.
AdamO

11

Tout d'abord, avec de telles données, je m'attendrais à une surdispersion (si vous ne savez pas ce que c'est, voir /stats//search?q=what+is+overdispersion%3F ).

Journal(DistrictSize)Nr. homicidesTaille du district

Un autre problème est la transformation que vous avez utilisée avec la régression linéaire. La transformation de stabilisation de variance habituelle utilisée avec les données de comptage est la racine carrée, pas le logarithme.

Ouije/XjeOuijePoisson(λXje)

EOuijeXjeλVOuijeXjeXje-1
XjeOuije/XjeJournal(Ouije/Xje+1)
    EDIT

Quant à votre analyse supplémentaire dans le post, notez que les rmse ne peuvent pas être comparés directement entre les deux modèles, car des réponses différentes sont utilisées! Pour effectuer une comparaison directe, vous devrez retransformer les valeurs prévues à l'échelle d'origine. Ensuite, vous pouvez calculer vous-même le rmse et voir. Mais notez que les prédictions obtenues après rétro-transformation peuvent être biaisées, en raison de non-linéarités. Un certain ajustement des prédictions rétrotransformées pourrait donc les rendre plus utiles. Dans certains cas, cela pourrait être calculé théoriquement, ou vous pourriez simplement utiliser un bootstrap.


J'ai monté les modèles comme vous l'avez suggéré, même si je ne comprenais pas vraiment la résonance derrière l'OLS pondéré. Qu'est-ce que tu penses?
marcodena


2

Il est vrai que vos données ne sont pas distribuées normalement (ce qui, je présume, explique pourquoi vous avez également effectué une régression de Poisson), mais vos données ne sont probablement pas non plus une distribution de Poisson. La distribution de Poisson suppose que la moyenne et la variance sont les mêmes, ce qui n'est probablement pas le cas (comme mentionné dans d'autres réponses - vous pouvez capturer cet écart et l'intégrer dans le modèle). Étant donné que vos données ne sont pas vraiment adaptées à l'un ou l'autre modèle, il est logique que OLS soit plus performant.

Une autre chose à noter est que les estimations des moindres carrés ordinaires sont robustes à la non-normalité, ce qui peut expliquer pourquoi vous obtenez un modèle raisonnable. Le théorème de Gauss-Markov nous dit que les estimations des coefficients OLS sont les meilleurs estimateurs linéaires sans biais (en termes d'erreur quadratique moyenne) (BLEUS) dans les hypothèses suivantes,

  • Les erreurs ont une moyenne de zéro
  • Les observations ne sont pas corrélées
  • Les erreurs ont une variance constante

Il n'y a aucune hypothèse de normalité ici, donc vos données peuvent très bien être raisonnables pour ce modèle! Cela étant dit, j'examinerais un modèle de Poisson avec un paramètre de sur-dispersion intégré et vous devriez obtenir de meilleurs résultats.


@TynnaDoStat merci! J'ai monté deux modèles maintenant, l'un avec un paramètre de dispersion. Qu'est-ce que tu penses?
marcodena

2
La variance = moyenne pour une distribution de Poisson est souvent invoquée comme hypothèse problématique pour la régression de Poisson , mais le point n'est pas aussi difficile que ce qui est impliqué ici. Malgré son nom, l'idée principale de la régression de Poisson est celle d'une fonction de liaison logarithmique; les hypothèses sur la distribution conditionnelle ne sont pas aussi importantes. Ce qui est probable si les hypothèses ne se vérifient pas toutes, c'est principalement que les erreurs standard sont désactivées, sauf si vous les ajustez, mais l'ajustement aura souvent un sens.
Nick Cox

2
En effet, la régression de Poisson peut avoir un sens pour les réponses mesurées non négatives où la variance et la moyenne n'ont même pas les mêmes dimensions. Voir par exemple blog.stata.com/2011/08/22/…
Nick Cox
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.