Hypothèses des modèles linéaires généralisés

À la page 232 de "Un compagnon R pour la régression appliquée" Fox et Weisberg note

Seule la famille gaussienne a une variance constante, et dans tous les autres GLM, la variance conditionnelle de y à dépend de $\bf{x}$ $\mu(x)$

Plus tôt, ils notent que la variance conditionnelle du Poisson est et celle du binôme est . $\mu$ $\frac{\mu(1-\mu)}{N}$

Pour le gaussien, il s'agit d'une hypothèse familière et souvent vérifiée (homoscédasticité). De même, je vois souvent la variance conditionnelle du Poisson discutée comme une hypothèse de régression de Poisson, ainsi que des remèdes pour les cas où il est violé (par exemple binôme négatif, zéro gonflé, etc.). Pourtant, je ne vois jamais la variance conditionnelle pour le binôme discuté comme une hypothèse de régression logistique. Un petit googling n'en a trouvé aucune mention.

Qu'est-ce que j'oublie ici?

EDIT après le commentaire de @whuber:

Comme suggéré, je regarde Hosmer & Lemeshow. C'est intéressant et je pense que cela montre pourquoi je (et peut-être d'autres) suis confus. Par exemple, le mot "hypothèse" ne figure pas dans l'index du livre. De plus, nous avons ceci (p. 175)

Dans la régression logistique, nous devons nous appuyer principalement sur l'évaluation visuelle, car la distribution des diagnostics sous l'hypothèse que le modèle s'adapte n'est connue que dans certains contextes limités

Ils montrent pas mal de graphiques, mais se concentrent sur des diagrammes de dispersion de divers résidus par rapport à la probabilité estimée. Ces tracés (même pour un bon modèle, n'ont pas le motif "blobby" caractéristique des tracés similaires dans la régression OLS, et sont donc plus difficiles à juger. De plus, ils ne montrent rien de semblable aux tracés quantiles.

Dans R, plot.lm propose un bel ensemble par défaut de tracés pour évaluer les modèles; Je ne connais pas d'équivalent pour la régression logistique, bien qu'il puisse être dans un paquet. Cela peut être dû au fait que des tracés différents seraient nécessaires pour chaque type de modèle. SAS propose des parcelles dans PROC LOGISTIC.

Cela semble certainement être un domaine de confusion potentielle!

logistic generalized-linear-model

— Peter Flom
source

Si vous avez une copie de Hosmer & Lemeshow, Applied Logistic Regression, consultez le chapitre "Évaluer l'ajustement du modèle": la variance conditionnelle du binôme apparaît partout et est explicitement prise en compte dans presque tous les tests du GoF.

— whuber

Je pense que l'hypothèse binomiale est imposée par l'expérience réelle: les réponses sont indépendantes 0/1 donc la distribution binomiale est la seule qui modélise l'expérience réelle. À l'opposé, l'hypothèse d'une distribution de Poisson pour les dénombrements n'est pas réaliste.

— Stéphane Laurent

Merci @whuber. J'ai ce livre et je vais le vérifier

— Peter Flom

... mais la fonction de lien n'est pas naturelle et elle détermine la variance conditionnelle ... donc mon commentaire ci-dessus n'était pas très sensé

— Stéphane Laurent

Réponses:

Ces tracés (même pour un bon modèle, n'ont pas le motif "blobby" caractéristique des tracés similaires dans la régression OLS, et sont donc plus difficiles à juger. De plus, ils ne montrent rien de semblable aux tracés quantiles.

Le package DHARMa R résout ce problème en simulant à partir du modèle ajusté pour transformer les résidus de tout GL (M) M en un espace normalisé. Une fois cela fait, toutes les méthodes régulières pour évaluer visuellement et formellement les problèmes résiduels (par exemple les parcelles qq, la surdispersion, l'hétéroskédasticité, l'autocorrélation) peuvent être appliquées. Voir la vignette du package pour des exemples élaborés.

Concernant le commentaire de @Otto_K: si la surdispersion homogène est le seul problème, il est probablement plus simple d'utiliser un effet aléatoire de niveau observationnel, qui peut être implémenté avec un GLMM binomial standard. Cependant, je pense que @PeterFlom était également préoccupé par l'hétéroscédasticité, c'est-à-dire un changement du paramètre de dispersion avec certaines prédictions ou prédictions de modèle. Cela ne sera pas détecté / corrigé par les contrôles / corrections de surdispersion standard, mais vous pouvez le voir dans les tracés résiduels DHARMa. Pour le corriger, modéliser la dispersion en fonction de quelque chose d'autre dans JAGS ou STAN est probablement le seul moyen pour le moment.

— Florian Hartig
source

Le sujet que vous expliquez est souvent appelé surdispersion . Dans mon travail, j'ai vu une solution possible à un tel sujet:

Utilisation d'une approche bayésienne et estimation d'une distribution bêta-binomiale. Cela a le grand avantage pour les autres distributions (induites par d'autres antérieurs), d'avoir une solution de forme fermée.

Références:

Distribution bêta-binomiale
Notes des estimateurs de Peter Hoff Bayes ( pdf )

— Otto_K
source