Quand utiliser les équations d'estimation généralisées par rapport aux modèles à effets mixtes?


63

Cela fait déjà un moment que j'utilise des modèles à effets mixtes avec des données longitudinales. J'aimerais pouvoir adapter les relations entre les AR dans lmer (je pense avoir raison de ne pas pouvoir faire cela?), Mais je ne pense pas que ce soit extrêmement important, je ne m'inquiète donc pas trop.

Je viens de rencontrer des équations d'estimation généralisées (GEE), et elles semblent offrir beaucoup plus de flexibilité que les modèles ME.

Au risque de poser une question trop générale, y a-t-il un conseil sur ce qui est le mieux pour différentes tâches? J'ai vu des articles les comparer, et ils ont tendance à être de la forme:

"Dans ce domaine hautement spécialisé, n'utilisez pas les GEE pour X, n'utilisez pas les modèles ME pour Y".

Je n'ai trouvé aucun conseil plus général. Quelqu'un peut-il m'éclairer?

Je vous remercie!


1
"ils semblent offrir beaucoup plus de flexibilité" ... Eh bien, leur approche est également différente puisque les GEE sont utilisés pour s’adapter à une distribution marginale, contrairement à l’approche conditionnelle souvent intéressante pour l’utilisation de GLMM.
chl


Notez que cela glmmPQLpeut aussi convenir aux structures de corrélation AR
Tom Wenseleers

Qu'est-ce qu'une relation AR?
Statistiques d'apprentissage par exemple

@incodeveritas Structure de covariance
autorégressive

Réponses:


56

Utilisez GEE lorsque vous souhaitez découvrir l'effet moyen d'une covariable sur la population par rapport à l'effet spécifique individuel. Ces deux choses ne sont équivalentes que dans les modèles linéaires, mais pas dans les non-linéaires (par exemple, la logistique). Pour le voir, prenons par exemple le modèle logistique à effets aléatoires de la ième observation du ième sujet, ;jiYij

log(pij1pij)=μ+ηi

où est un effet aléatoire pour le sujet et .ηiN(0,σ2)ipij=P(Yij=1|ηi)

Si vous utilisiez un modèle à effets aléatoires sur ces données, vous obtiendrez une estimation de qui prend en compte le fait qu’une perturbation moyenne nulle répartie a été appliquée à chaque individu, le rendant ainsi spécifique.μ

Si vous utilisiez GEE sur ces données, vous estimeriez la cote moyenne du journal de la population. Dans ce cas, ce serait

ν=log(Eη(11+eμηi)1Eη(11+eμηi))

νμ , en général. Par exemple, si et , alors . Bien que les effets aléatoires aient une moyenne nulle sur l' échelle transformée (ou liée ), leur effet n'est pas égal à zéro sur l'échelle initiale des données. Essayez de simuler des données à partir d'un modèle de régression logistique à effets mixtes et de comparer la moyenne au niveau de la population avec le logit inverse de l'interception et vous verrez qu'elles ne sont pas égales, comme dans cet exemple. Cette différence dans l'interprétation des coefficients est la différence fondamentale entre les modèles GEE et à effets aléatoires .μ=1σ2=1ν.83

Éditer: En général, un modèle à effets mixtes sans prédicteur peut être écrit comme

ψ(E(Yij|ηi))=μ+ηi

où est une fonction de liaison. N'importe quandψ

ψ(Eη(ψ1(E(Yij|ηi))))Eη(E(Yij|ηi))

il y aura une différence entre les coefficients moyens de la population (GEE) et les coefficients spécifiques individuels (modèles à effets aléatoires). En d’autres termes, les moyennes changent en transformant les données, en intégrant les effets aléatoires sur l’échelle transformée, puis en les transformant. Notez que dans le modèle linéaire (c’est-à-dire ), l’égalité est valable, elles sont donc équivalentes.ψ(x)=x

Edit 2: Il convient également de noter que les erreurs types "robustes" de type sandwich générées par un modèle GEE fournissent des intervalles de confiance asymptotiques valides (ils couvrent en fait 95% du temps), même si la structure de corrélation spécifiée dans le modèle n'est pas correcte. correct.

Edit 3: Si votre intérêt est de comprendre la structure des associations dans les données, les estimations GEE des associations sont notoirement inefficaces (et parfois incohérentes). J'ai vu une référence pour cela mais je ne peux pas la placer pour le moment.


3
(+1) À propos de votre deuxième édition, j'ajouterais que les estimateurs de variance basés sur un modèle fonctionneront mieux avec un petit nombre de grappes (ou que nous pouvons utiliser un estimateur de Jacknife). Pour ce qui est de la référence, je pointe toujours vers gbi.agrsci.dk/statistics/courses/phd07/material/Day10 , qui contient de très bonnes notes de cours (stat. Contexte, y compris une comparaison des approches GEE par rapport à GLMM + illustrations en R) .
chl

Wow, quelle bonne réponse. Merci beaucoup. C'est tout ce que je cherchais. Et merci à chl aussi pour le lien. + 10 internets à vous deux.
Chris Beeley

Les GEE ne supposent-ils pas également que les effets de niveau plus élevé sont des paramètres de nuisance? Il me semble que c'est une autre distinction importante - si quelqu'un s'intéresse à ces effets, GEE ne vous le donnera pas. Sinon, si vous ne vous sentez pas à l'aise pour formuler ces hypothèses de répartition, alors GEE serait peut-être préférable.
robin.datadrivers

Le lien fourni par @chl est mort: / (six ans plus tard, c'est plutôt attendu, non?)
Guilherme Marthe

@GuilhermeMarthe Bonne prise! Malheureusement, j'ai lié au même matériel dans un autre thread . Je vois deux options: faire référence au paquet geepack R (développé par les deux mêmes auteurs) ou utiliser la machine WayBack pour le moment.
chl

10

GEE est dans mon esprit le plus utile lorsque nous n’utilisons pas la modélisation bayésienne et quand aucune solution de vraisemblance n’est disponible. De plus, GEE peut nécessiter des échantillons de plus grande taille pour être suffisamment précis, et il est très peu robuste aux données longitudinales manquantes. GEE suppose que les données manquantes sont complètement aléatoires, tandis que les méthodes de vraisemblance (modèles à effets mixtes ou moindres carrés généralisés, par exemple) ne supposent que les données manquantes au hasard.


1

Vous pouvez trouver une discussion approfondie et des exemples concrets dans Fitzmaurice, Laird et Ware, Analyse longitudinale appliquée , John Wiley & Sons, 2011, 2e édition, chapitres 11-16.

En ce qui concerne les exemples, vous pouvez trouver des jeux de données et des programmes SAS / Stata / R sur le site Web associé .


2
Pourriez-vous résumer les points principaux de ce livre?
chl

2
Je dirais que Macro l'a déjà fait ;-) Dans le livre, vous trouverez une discussion plus longue et plus détaillée, des exemples analytiques, numériques et graphiques, ainsi que d'autres points, parmi lesquels ce que Frank Harrell a ajouté. Vous pouvez également consulter le blog de Gelman .
Sergio
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.