Quelles sont les hypothèses de régression binomiale négative?

30

Je travaille avec un grand ensemble de données (confidentiel, donc je ne peux pas trop en partager), et suis arrivé à la conclusion qu'une régression binomiale négative serait nécessaire. Je n'ai jamais fait de régression glm auparavant et je ne trouve aucune information claire sur les hypothèses. Sont-ils les mêmes pour MLR?

Puis-je transformer les variables de la même manière (j'ai déjà découvert que la transformation de la variable dépendante est un mauvais appel car elle doit être un nombre naturel)? J'ai déjà déterminé que la distribution binomiale négative aiderait à la sur-dispersion de mes données (la variance est d'environ 2000, la moyenne est de 48).

Merci pour l'aide!!

— Carly
source

42

Je travaille avec un grand ensemble de données (confidentiel, donc je ne peux pas trop en partager),

Il pourrait être possible de créer un petit ensemble de données qui possède certaines des caractéristiques générales des données réelles sans les noms de variable ni aucune des valeurs réelles.

et est arrivé à la conclusion qu'une régression binomiale négative serait nécessaire. Je n'ai jamais fait de régression glm auparavant et je ne trouve aucune information claire sur les hypothèses. Sont-ils les mêmes pour MLR?

Clairement non! Vous savez déjà que vous supposez que la réponse est un binôme conditionnellement négatif, et non conditionnellement normal. ( Certaines hypothèses sont partagées. L'indépendance par exemple.)

Permettez-moi de parler des GLM plus généralement en premier.

Les GLM incluent une régression multiple mais se généralisent de plusieurs manières:

1) la distribution conditionnelle de la réponse (variable dépendante) provient de la famille exponentielle , qui comprend les distributions de Poisson, binomiale, gamma, normale et de nombreuses autres.

2) la réponse moyenne est liée aux prédicteurs (variables indépendantes) via une fonction de liaison . Chaque famille de distributions a une fonction de lien canonique associée - par exemple dans le cas du Poisson, le lien canonique est le log . Les liens canoniques sont presque toujours la valeur par défaut, mais dans la plupart des logiciels, vous avez généralement plusieurs choix dans chaque choix de distribution. Pour le binôme, le lien canonique est le logit (le prédicteur linéaire modélise le , les log-odds d'un succès, ou un "1") et pour le Gamma le lien canonique est l'inverse - mais dans les deux cas, d'autres fonctions de lien sont souvent utilisées. $\log(\frac{p}{1-p})$

Donc, si votre réponse était et vos prédicteurs étaient et , avec une régression de Poisson avec le lien log que vous pourriez avoir pour votre description de la façon dont la moyenne de est liée aux : $Y$ $X_1$ $X_2$ $Y$ $X$

$\text{E}(Y_i) = \mu_i$

$\log\mu_i= \eta_i$ $\eta$ $\log$ $g$

$\eta_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i}$

3) la variance de la réponse n'est pas constante, mais opère via une fonction de variance (fonction de la moyenne, éventuellement multipliée par un paramètre d'échelle). Par exemple, la variance d'un Poisson est égale à la moyenne, tandis que pour un gamma, elle est proportionnelle au carré de la moyenne. (Les quasi-distributions permettent un certain degré de découplage de la fonction de variance de la distribution supposée)

-

Alors, quelles hypothèses sont en commun avec ce que vous vous souvenez de MLR?

L'indépendance est toujours là.
L'homoscédasticité n'est plus supposée; la variance est explicitement fonction de la moyenne et varie donc en général avec les prédicteurs (ainsi, alors que le modèle est généralement hétéroscédastique, l'hétéroscédasticité prend une forme spécifique).
$X\beta$
La distribution de la réponse est beaucoup plus générale

$t$

Les comparaisons entre les modèles imbriqués (via des configurations de type «anova-table») sont un peu différentes, mais similaires (impliquant des tests de khi carré asymptotiques). Si vous êtes à l'aise avec AIC et BIC, ceux-ci peuvent être calculés.

Des types similaires d'affichages diagnostiques sont généralement utilisés, mais peuvent être plus difficiles à interpréter.

Une grande partie de votre intuition de régression linéaire multiple se poursuivra si vous gardez à l'esprit les différences.

$Y$ $x$

$\text{E}(Y) = \exp(\eta) = \exp(X\beta) = \exp(\beta_0+\beta_1 x)$

$\text{Var}(Y) = \sigma^2$

$Y$ $x$

Puis-je transformer les variables de la même manière (j'ai déjà découvert que la transformation de la variable dépendante est un mauvais appel car elle doit être un nombre naturel)?

Vous (généralement) ne voulez pas transformer la réponse (DV). Vous pouvez parfois vouloir transformer les prédicteurs (IV) afin d'obtenir la linéarité du prédicteur linéaire.

J'ai déjà déterminé que la distribution binomiale négative aiderait à la sur-dispersion de mes données (la variance est d'environ 2000, la moyenne est de 48).

Oui, il peut gérer la surdispersion. Mais attention à ne pas confondre la dispersion conditionnelle avec la dispersion inconditionnelle .

Une autre approche courante - si elle est un peu plus délicate et donc un peu moins satisfaisante pour moi - est la régression quasi-Poisson (régression de Poisson sur-dispersée).

Avec le binôme négatif, il fait partie de la famille exponentielle si vous spécifiez un paramètre particulier (comme il est généralement reparamétré pour GLMS au moins). Certains packages l'adapteront si vous spécifiez le paramètre, d'autres envelopperont l'estimation ML de ce paramètre (par exemple via la vraisemblance du profil) autour d'une routine GLM, automatisant le processus. Certains vous limiteront à un plus petit ensemble de distributions; vous ne dites pas quel logiciel vous pourriez utiliser, il est donc difficile d'en dire beaucoup plus là-bas.

Je pense que généralement le log-link a tendance à être utilisé avec une régression binomiale négative.

Il existe un certain nombre de documents d'introduction (facilement accessibles via Google) qui mènent à travers une analyse GLM de Poisson de base, puis une analyse GLM binomiale négative des données, mais vous préférerez peut-être consulter un livre sur les GLM et peut-être faire d'abord une petite régression de Poisson juste pour m'y habituer.

— Glen_b -Reinstate Monica
source

1

+1 Je suis d'accord avec COOLSerdash. Beaucoup de bonnes informations ici! En plus de la recherche Google recommandée, je recommanderais spécifiquement un manuel intitulé Econometrics by Example by Gujarati. Le chapitre 12 couvre le modèle de régression de Poisson et le modèle de régression binomiale négative. Comme le suggère le titre du livre, il existe des exemples. Les données utilisées dans le livre sont disponibles sur le site Web compagnon des livres et sont donc un résumé du chapitre 12 lui-même. Je recommande que l'OP vérifie cela.

— Graeme Walsh

Je suis en retard à la fête ... mais cette réponse m'a aidé à mieux comprendre les modèles linéaires généralisés que toute une pile de livres à la bibliothèque.

— haff

0

Certaines références que j'ai trouvées utiles pour analyser les données avec la distribution binomiale négative en particulier (y compris les hypothèses de liste) et les GLM / GLMM en général sont:

Bates, DM, B. Machler, B. Bolker et S. Walker. 2015. Ajustement des modèles linéaires à effets mixtes à l'aide de lme4. J. Stat. Logiciel 67: 1-48.

Bolker, BM, ME Brooks, CJ Clark, SW Geange, JR Poulsen, MHH Stevens et J. White. Modèles mixtes linéaires généralisés: un guide pratique pour l'écologie et l'évolution. Tendances en écologie et évolution 127-135.

Zeileis A., C. Keleiber C et S. Jackman 2008. Modèles de régression pour les données de comptage dans RJ Stat. Logiciel. 27: 1-25

Zuur AF, EN Iene, N. Walker, AA Saveliev et GM Smith. 2009. Modèles d'effets mixtes et extensions en écologie avec R. Springer, NY, USA.

— Todd Johnson
source