Je travaille avec un grand ensemble de données (confidentiel, donc je ne peux pas trop en partager),
Il pourrait être possible de créer un petit ensemble de données qui possède certaines des caractéristiques générales des données réelles sans les noms de variable ni aucune des valeurs réelles.
et est arrivé à la conclusion qu'une régression binomiale négative serait nécessaire. Je n'ai jamais fait de régression glm auparavant et je ne trouve aucune information claire sur les hypothèses. Sont-ils les mêmes pour MLR?
Clairement non! Vous savez déjà que vous supposez que la réponse est un binôme conditionnellement négatif, et non conditionnellement normal. ( Certaines hypothèses sont partagées. L'indépendance par exemple.)
Permettez-moi de parler des GLM plus généralement en premier.
Les GLM incluent une régression multiple mais se généralisent de plusieurs manières:
1) la distribution conditionnelle de la réponse (variable dépendante) provient de la famille exponentielle , qui comprend les distributions de Poisson, binomiale, gamma, normale et de nombreuses autres.
2) la réponse moyenne est liée aux prédicteurs (variables indépendantes) via une fonction de liaison . Chaque famille de distributions a une fonction de lien canonique associée - par exemple dans le cas du Poisson, le lien canonique est le log . Les liens canoniques sont presque toujours la valeur par défaut, mais dans la plupart des logiciels, vous avez généralement plusieurs choix dans chaque choix de distribution. Pour le binôme, le lien canonique est le logit (le prédicteur linéaire modélise le , les log-odds d'un succès, ou un "1") et pour le Gamma le lien canonique est l'inverse - mais dans les deux cas, d'autres fonctions de lien sont souvent utilisées.bûche( p1 - p)
Donc, si votre réponse était et vos prédicteurs étaient X 1 et X 2 , avec une régression de Poisson avec le lien log que vous pourriez avoir pour votre description de la façon dont la moyenne de Y est liée aux X :OuiX1X2OuiX
E ( Yje) = μje
bûcheμje= ηjeηbûcheg
ηje= β0+ β1X1 i+ β2X2 i
3) la variance de la réponse n'est pas constante, mais opère via une fonction de variance (fonction de la moyenne, éventuellement multipliée par un paramètre d'échelle). Par exemple, la variance d'un Poisson est égale à la moyenne, tandis que pour un gamma, elle est proportionnelle au carré de la moyenne. (Les quasi-distributions permettent un certain degré de découplage de la fonction de variance de la distribution supposée)
-
Alors, quelles hypothèses sont en commun avec ce que vous vous souvenez de MLR?
L'indépendance est toujours là.
L'homoscédasticité n'est plus supposée; la variance est explicitement fonction de la moyenne et varie donc en général avec les prédicteurs (ainsi, alors que le modèle est généralement hétéroscédastique, l'hétéroscédasticité prend une forme spécifique).
Xβ
La distribution de la réponse est beaucoup plus générale
t
Les comparaisons entre les modèles imbriqués (via des configurations de type «anova-table») sont un peu différentes, mais similaires (impliquant des tests de khi carré asymptotiques). Si vous êtes à l'aise avec AIC et BIC, ceux-ci peuvent être calculés.
Des types similaires d'affichages diagnostiques sont généralement utilisés, mais peuvent être plus difficiles à interpréter.
Une grande partie de votre intuition de régression linéaire multiple se poursuivra si vous gardez à l'esprit les différences.
OuiX
E ( Y) = exp( η) = exp( Xβ) = exp( β0+ β1x )
Var ( Y) = σ2
OuiX
Puis-je transformer les variables de la même manière (j'ai déjà découvert que la transformation de la variable dépendante est un mauvais appel car elle doit être un nombre naturel)?
Vous (généralement) ne voulez pas transformer la réponse (DV). Vous pouvez parfois vouloir transformer les prédicteurs (IV) afin d'obtenir la linéarité du prédicteur linéaire.
J'ai déjà déterminé que la distribution binomiale négative aiderait à la sur-dispersion de mes données (la variance est d'environ 2000, la moyenne est de 48).
Oui, il peut gérer la surdispersion. Mais attention à ne pas confondre la dispersion conditionnelle avec la dispersion inconditionnelle .
Une autre approche courante - si elle est un peu plus délicate et donc un peu moins satisfaisante pour moi - est la régression quasi-Poisson (régression de Poisson sur-dispersée).
Avec le binôme négatif, il fait partie de la famille exponentielle si vous spécifiez un paramètre particulier (comme il est généralement reparamétré pour GLMS au moins). Certains packages l'adapteront si vous spécifiez le paramètre, d'autres envelopperont l'estimation ML de ce paramètre (par exemple via la vraisemblance du profil) autour d'une routine GLM, automatisant le processus. Certains vous limiteront à un plus petit ensemble de distributions; vous ne dites pas quel logiciel vous pourriez utiliser, il est donc difficile d'en dire beaucoup plus là-bas.
Je pense que généralement le log-link a tendance à être utilisé avec une régression binomiale négative.
Il existe un certain nombre de documents d'introduction (facilement accessibles via Google) qui mènent à travers une analyse GLM de Poisson de base, puis une analyse GLM binomiale négative des données, mais vous préférerez peut-être consulter un livre sur les GLM et peut-être faire d'abord une petite régression de Poisson juste pour m'y habituer.