Modèle mixte vs erreurs standard de regroupement pour les études multisites - Pourquoi un modèle mixte est-il tellement plus efficace?

J'ai un ensemble de données composé d'une série de décomptes mensuels de «bâtons cassés» provenant d'une poignée de sites. J'essaie d'obtenir une seule estimation récapitulative à partir de deux techniques différentes:

Technique 1: Ajustez un «bâton cassé» avec un GLM de Poisson avec une variable indicatrice 0/1, et utilisez une variable de temps et de temps ^ 2 pour contrôler les tendances dans le temps. L'estimation de cette variable indicatrice 0/1 et SE sont regroupées en utilisant une technique de méthode des moments assez directe et descendante, ou en utilisant le package tlnise dans R pour obtenir une estimation "bayésienne". C'est similaire à ce que Peng et Dominici font avec les données sur la pollution atmosphérique, mais avec moins de sites (~ une douzaine).

Technique 2: abandonner une partie du contrôle spécifique au site pour les tendances dans le temps et utiliser un modèle mixte linéaire. Particulièrement:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

Ma question porte sur les erreurs types qui ressortent de ces estimations. L'erreur standard de la technique 1, qui utilise en fait un ensemble d'heures hebdomadaire plutôt que mensuel et devrait donc avoir plus de précision, a une erreur standard sur l'estimation de ~ 0,206 pour l'approche de la méthode des moments et de ~ 0,306 pour l'informatique.

La méthode lmer donne une erreur standard de ~ 0,09. Les estimations des effets sont raisonnablement proches, il ne semble donc pas qu'elles se concentrent uniquement sur différentes estimations sommaires, car le modèle mixte est beaucoup plus efficace.

Est-ce quelque chose que l'on peut raisonnablement attendre? Si oui, pourquoi les modèles mixtes sont-ils tellement plus efficaces? S'agit-il d'un phénomène général ou d'un résultat spécifique de ce modèle?

time-series mixed-model

— Fomite
source

Il est difficile de répondre à cette question sans savoir exactement quel modèle vous correspondez dans votre Technique 1. Vous mentionnez 3 possibilités, mais pour autant que je sache, ne vous contentez jamais d'une. Plus tard, vous dites que "l'erreur standard de la Technique 1 [...] est ~ 0,206". Précisément pour quel modèle est-ce l'erreur standard? Publierez-vous la syntaxe que vous avez utilisée pour ajuster ce modèle, comme vous l'avez fait pour Technique 2? Encore mieux serait de fournir un exemple reproductible (pas nécessairement votre jeu de données d'origine) auquel nous pourrions nous-mêmes adapter les deux modèles.

— Jake Westfall

@JakeWestfall Vous avez raison, lorsque j'ai écrit cela pour la première fois, c'était une sorte de question de courant de conscience à mesure que le problème se développait. Je vais faire quelques retouches et voir si cela peut être plus utile. Malheureusement, le code a erré quelque part ...

— Fomite

Fait un petit nettoyage - la conception des modèles utilise les mêmes variables. Malheureusement, le code, les données, etc. sont sur une autre machine et je suis en conférence. La question fondamentale pourrait se résumer, je pense, à "Estimation multi-sites: les modèles mixtes sont-ils toujours / souvent plus efficaces que la mise en commun?"

— Fomite

Je sais que c'est une vieille question, mais elle est relativement populaire et a une réponse simple, alors j'espère qu'elle sera utile à d'autres à l'avenir. Pour une analyse plus approfondie, jetez un œil au cours de Christoph Lippert sur les modèles mixtes linéaires qui les examine dans le contexte des études d'association à l'échelle du génome ici . Voir en particulier la leçon 5 .

La raison pour laquelle le modèle mixte fonctionne tellement mieux est qu'il est conçu pour prendre en compte exactement ce que vous essayez de contrôler: la structure de la population. Les «populations» de votre étude sont les différents sites utilisant, par exemple, des implémentations légèrement différentes mais cohérentes du même protocole. De plus, si les sujets de votre étude sont des personnes, les personnes regroupées de différents sites sont moins susceptibles d'être liées que les personnes du même site, de sorte que la parenté avec le sang peut également jouer un rôle.

$\mathcal{N}(Y|X\beta,\sigma^2)$ $K$ $\mathcal{N}(Y|X\beta + Zu,\sigma^2I + \sigma_g^2K)$

Parce que vous essayez de contrôler explicitement la structure de la population, il n'est donc pas surprenant que le modèle mixte linéaire ait surpassé les autres techniques de régression.

— Michael K
source