Question de régression binomiale négative - est-ce un mauvais modèle?

Je lis un article très intéressant de Sellers et Shmueli sur les modèles de régression pour les données de comptage. Vers le début (p. 944), ils citent McCullaugh et Nelder (1989) disant que la régression binomiale négative est impopulaire et a un lien canonique problématique. J'ai trouvé le passage référé et il dit (p. 374 de M et N)

"La distribution binomiale négative semble avoir été peu utilisée dans les applications; en particulier, l'utilisation du lien canonique est problématique car elle fait du prédicteur linéaire une fonction d'un paramètre de la fonction de variance".

Sur la page précédente, ils donnent cette fonction de lien comme

η = \log (\frac{α}{1 + α}) = \log (\frac{μ}{μ + k})

$\eta = \log\left(\frac{\alpha}{1 + \alpha} \right) = \log\left( \frac{\mu}{\mu + k}\right)$

et fonction de variance

V = μ + \frac{μ^{2}}{k} .

$V = \mu + \frac{\mu^2}{k}.$

La distribution est donnée comme

P r (Y = y; α, k) = \frac{(y + k - 1)!}{y! (k - 1)!} \frac{α^{y}}{(1 + α)^{y = k}}

$Pr(Y = y; \alpha,k) = \frac{(y+k-1)!}{y!(k-1)!}\frac{\alpha^y}{(1+\alpha)^{y=k}}$

J'ai trouvé que la régression NB était assez largement utilisée (et recommandée dans plusieurs livres). Toutes ces utilisations et recommandations sont-elles erronées?

Quelles sont les conséquences de ce lien problématique?

regression modeling negative-binomial

— Peter Flom - Rétablir Monica
source

Cela a probablement à voir au moins en partie avec la citation attribuée à l'année 1989. Je suis prêt à parier que la plupart des utilisations actuelles du NB sont plus récentes. Le modèle NB est généralement très utile lorsque vous avez affaire à des problèmes de sur-dispersion dans le cas habituel de vraisemblance binomiale (c.-à-d. Régression logistique).

Je suis trouble sur les détails (et loin d'être même un novice en ce qui concerne le NegBin) mais je me souviens que Joseph Hilbe en avait discuté dans son livre Negative Binomial Regression (2nd Edition). Il commente à la p.9 que est une expression naturelle de la vue du mélange Poisson-gamma du NegBin. Après leur livre de 1989, Nelder a développé la macro kk pour GenStat, dans laquelle il favorise une relation directe entre et avec la variance et que cette paramétrisation directe s'est avérée très populaire. récemment.

V

$V$

α

$\alpha$

μ^{2}

$\mu^2$

V = μ + α μ^{2}

$V = \mu + \alpha \mu^2$

— Reinstate Monica - G. Simpson

Je prendrais ces commentaires avec un grain de sel. Re MN: Ils avaient une définition très stricte de ce qu'est un GLM (pour de bonnes raisons, je pense). Les modèles de Negbin avec un paramètre de forme inconnu n'adhèrent pas à la définition très stricte du GLM par McCullagh, Nelder, Pregibon et ainsi de suite. Donc techniquement, ce n'est pas un GLM dans presque tous les cas d'utilisation. Interprété comme une classe de modèle légèrement différente et estimé par maximum de vraisemblance, plus de problème. Re S&S avait besoin d'un dossier pour motiver le COM Poisson, donc la citation de M&N était utile.

— Momo

Je ne vois pas pourquoi les mauvaises propriétés présumées du lien canonique rendent le modèle negbin globalement indesriable. Vous choisissez votre fonction de lien sur la base des données et du problème que vous essayez de résoudre, pas par référence à la théorie mathématique. En fait, je doute que quelqu'un utilise le lien canonique. C'est une histoire similaire aux GLM gamma; le lien canonique est l'inverse, mais je parierais que beaucoup plus de gens utilisent un lien de journal en raison de la facilité d'interprétation et de l'application naturelle à de nombreuses situations.

— Hong Ooi

Autant que je sache, il n'y a presque jamais de raison d'utiliser le modèle binomial négatif. Même si vos données ont été réellement générées par un modèle binomial négatif, alors la régression de Poisson donne des estimateurs cohérents des effets des variables indépendantes sur la réponse moyenne --- et c'est pratiquement toujours ce que le chercheur veut estimer. Les erreurs standard habituelles sont fausses si l'hypothèse de Poisson est fausse, mais l'amorçage corrige cela. Chaque fois que , vous pouvez toujours estimer utilisant Poisson.

E {Y | X} = e x p (X β)

$E\{Y|X\}=exp(X\beta)$

β

$\beta$

— Bill

Je conteste les affirmations de plusieurs points de vue:

i) Bien que le lien canonique puisse être `` problématique '', il n'est pas immédiatement évident que quelqu'un sera intéressé par ce lien - alors que, par exemple, le lien log dans le Poisson est souvent à la fois pratique et naturel, et donc les gens sont souvent intéressé par cela. Même ainsi, dans le cas de Poisson, les gens regardent d'autres fonctions de liaison.

Nous n'avons donc pas besoin de restreindre notre considération au lien canonique.

Un «lien problématique» n'est pas en soi un argument particulièrement révélateur contre la régression binomiale négative.

Le lien de journal, par exemple, semble être un choix tout à fait raisonnable dans certaines applications binomiales négatives, par exemple, dans les cas où les données peuvent être conditionnellement Poisson mais il y a une hétérogénéité dans le taux de Poisson - le lien de journal peut être presque aussi interprétable comme dans le cas de Poisson.

Par comparaison, j'utilise les Gamma GLM assez souvent, mais je ne me souviens pas (à l'exception des exemples de manuels) d'avoir jamais utilisé son lien canonique - j'utilise presque toujours le lien de connexion, car c'est un lien plus naturel à utiliser pour les types de problèmes J'ai tendance à travailler avec.

ii) "Il semble que peu de choses aient été faites ... dans les candidatures" était peut-être à peu près vrai en 1989, mais je ne pense pas que cela existe maintenant. [Même si cela existait maintenant, ce n'est pas un argument que c'est un mauvais modèle, mais seulement qu'il n'a pas été largement utilisé - ce qui pourrait arriver pour toutes sortes de raisons.]

La régression binomiale négative est devenue plus largement utilisée car elle est plus largement disponible, et je la vois utilisée dans des applications beaucoup plus largement maintenant. Dans R, par exemple, j'utilise les fonctions MASSqui le supportent (et le livre correspondant, Venables and Ripley's, Modern Applied Statistics with S , utilise une régression binomiale négative dans certaines applications intéressantes) - et j'ai utilisé certaines fonctionnalités dans quelques autres packages avant même que je l'utilise dans R.

J'aurais utilisé davantage la régression binomiale négative, même plus tôt, si elle m'avait été facilement accessible; Je suppose que la même chose est vraie pour beaucoup de gens - donc l'argument selon lequel il a été peu utilisé semble être davantage une opportunité.

Bien qu'il soit possible d'éviter une régression binomiale négative (par exemple en utilisant des modèles de Poisson surdispersés) ou un certain nombre de situations où cela n'a pas vraiment d'importance ce que vous faites , il existe plusieurs raisons pour lesquelles ce n'est pas entièrement satisfaisant.

Par exemple, lorsque mon intérêt porte davantage sur les intervalles de prédiction que sur les estimations des coefficients, le fait que les coefficients ne changent pas peut ne pas être une raison suffisante pour éviter le binôme négatif.

Bien sûr, il existe d'autres choix qui modélisent la dispersion (comme le Conway-Maxwell-Poisson qui fait l'objet de l'article que vous avez mentionné); Bien que ce soient certainement des options, il y a parfois des situations où je suis assez heureux que le binôme négatif soit un «ajustement» assez bon comme modèle pour mon problème.

Toutes ces utilisations et recommandations sont-elles erronées?

Je ne pense vraiment pas! S'ils l'étaient, cela aurait dû devenir raisonnablement clair maintenant. En effet, si McCullagh et Nelder avaient continué à ressentir la même chose, ils n'avaient pas manqué d'opportunités, ni aucun manque de forums pour clarifier les questions restantes. Nelder est décédé (2010), mais McCullagh est apparemment toujours là .

Si ce court passage dans McCullagh et Nelder est tout ce qu'ils ont, je dirais que c'est un argument assez faible.

Quelles sont les conséquences de ce lien problématique?

Je pense que le problème est principalement lié à la fonction de variance et à la fonction de lien étant liée plutôt que non liée (comme c'est le cas pour à peu près toutes les autres principales familles GLM couramment utilisées), ce qui rend l'interprétation à l'échelle du prédicteur linéaire moins simple (cela ne veut pas dire que c'est le seul problème; je pense que c'est le principal problème pour un pratiquant). Ce n'est pas vraiment une affaire.

À titre de comparaison, je vois que les modèles Tweedie ont été beaucoup plus utilisés ces derniers temps, et je ne vois pas les gens s'inquiéter du fait que apparaît à la fois dans la fonction de variance et dans le lien canonique (ni même dans la plupart des cas inquiétant beaucoup sur le lien canonique). $p$

Rien de tout cela ne doit rien enlever aux modèles de Conway-Maxwell-Poisson (le sujet du papier Sellers et Shmueli), qui sont également de plus en plus utilisés - je ne souhaite certainement pas participer à un binôme négatif vs COM - Match de tir Poisson.

Je ne le vois tout simplement pas comme l'un ou l'autre, pas plus que (maintenant parlant plus largement) je ne prends une position purement bayésienne ni purement fréquentiste sur les problèmes statistiques. J'utiliserai tout ce qui me semble le meilleur choix dans les circonstances particulières dans lesquelles je me trouve, et chaque choix a tendance à avoir des avantages et des inconvénients.

— Glen_b -Reinstate Monica
source