Je conteste les affirmations de plusieurs points de vue:
i) Bien que le lien canonique puisse être `` problématique '', il n'est pas immédiatement évident que quelqu'un sera intéressé par ce lien - alors que, par exemple, le lien log dans le Poisson est souvent à la fois pratique et naturel, et donc les gens sont souvent intéressé par cela. Même ainsi, dans le cas de Poisson, les gens regardent d'autres fonctions de liaison.
Nous n'avons donc pas besoin de restreindre notre considération au lien canonique.
Un «lien problématique» n'est pas en soi un argument particulièrement révélateur contre la régression binomiale négative.
Le lien de journal, par exemple, semble être un choix tout à fait raisonnable dans certaines applications binomiales négatives, par exemple, dans les cas où les données peuvent être conditionnellement Poisson mais il y a une hétérogénéité dans le taux de Poisson - le lien de journal peut être presque aussi interprétable comme dans le cas de Poisson.
Par comparaison, j'utilise les Gamma GLM assez souvent, mais je ne me souviens pas (à l'exception des exemples de manuels) d'avoir jamais utilisé son lien canonique - j'utilise presque toujours le lien de connexion, car c'est un lien plus naturel à utiliser pour les types de problèmes J'ai tendance à travailler avec.
ii) "Il semble que peu de choses aient été faites ... dans les candidatures" était peut-être à peu près vrai en 1989, mais je ne pense pas que cela existe maintenant. [Même si cela existait maintenant, ce n'est pas un argument que c'est un mauvais modèle, mais seulement qu'il n'a pas été largement utilisé - ce qui pourrait arriver pour toutes sortes de raisons.]
La régression binomiale négative est devenue plus largement utilisée car elle est plus largement disponible, et je la vois utilisée dans des applications beaucoup plus largement maintenant. Dans R, par exemple, j'utilise les fonctions MASS
qui le supportent (et le livre correspondant, Venables and Ripley's, Modern Applied Statistics with S , utilise une régression binomiale négative dans certaines applications intéressantes) - et j'ai utilisé certaines fonctionnalités dans quelques autres packages avant même que je l'utilise dans R.
J'aurais utilisé davantage la régression binomiale négative, même plus tôt, si elle m'avait été facilement accessible; Je suppose que la même chose est vraie pour beaucoup de gens - donc l'argument selon lequel il a été peu utilisé semble être davantage une opportunité.
Bien qu'il soit possible d'éviter une régression binomiale négative (par exemple en utilisant des modèles de Poisson surdispersés) ou un certain nombre de situations où cela n'a pas vraiment d'importance ce que vous faites , il existe plusieurs raisons pour lesquelles ce n'est pas entièrement satisfaisant.
Par exemple, lorsque mon intérêt porte davantage sur les intervalles de prédiction que sur les estimations des coefficients, le fait que les coefficients ne changent pas peut ne pas être une raison suffisante pour éviter le binôme négatif.
Bien sûr, il existe d'autres choix qui modélisent la dispersion (comme le Conway-Maxwell-Poisson qui fait l'objet de l'article que vous avez mentionné); Bien que ce soient certainement des options, il y a parfois des situations où je suis assez heureux que le binôme négatif soit un «ajustement» assez bon comme modèle pour mon problème.
Toutes ces utilisations et recommandations sont-elles erronées?
Je ne pense vraiment pas! S'ils l'étaient, cela aurait dû devenir raisonnablement clair maintenant. En effet, si McCullagh et Nelder avaient continué à ressentir la même chose, ils n'avaient pas manqué d'opportunités, ni aucun manque de forums pour clarifier les questions restantes. Nelder est décédé (2010), mais McCullagh est apparemment toujours là .
Si ce court passage dans McCullagh et Nelder est tout ce qu'ils ont, je dirais que c'est un argument assez faible.
Quelles sont les conséquences de ce lien problématique?
Je pense que le problème est principalement lié à la fonction de variance et à la fonction de lien étant liée plutôt que non liée (comme c'est le cas pour à peu près toutes les autres principales familles GLM couramment utilisées), ce qui rend l'interprétation à l'échelle du prédicteur linéaire moins simple (cela ne veut pas dire que c'est le seul problème; je pense que c'est le principal problème pour un pratiquant). Ce n'est pas vraiment une affaire.
À titre de comparaison, je vois que les modèles Tweedie ont été beaucoup plus utilisés ces derniers temps, et je ne vois pas les gens s'inquiéter du fait que apparaît à la fois dans la fonction de variance et dans le lien canonique (ni même dans la plupart des cas inquiétant beaucoup sur le lien canonique).p
Rien de tout cela ne doit rien enlever aux modèles de Conway-Maxwell-Poisson (le sujet du papier Sellers et Shmueli), qui sont également de plus en plus utilisés - je ne souhaite certainement pas participer à un binôme négatif vs COM - Match de tir Poisson.
Je ne le vois tout simplement pas comme l'un ou l'autre, pas plus que (maintenant parlant plus largement) je ne prends une position purement bayésienne ni purement fréquentiste sur les problèmes statistiques. J'utiliserai tout ce qui me semble le meilleur choix dans les circonstances particulières dans lesquelles je me trouve, et chaque choix a tendance à avoir des avantages et des inconvénients.