Pourquoi l'ajout d'un effet de décalage augmente-t-il la déviance moyenne dans un modèle hiérarchique bayésien?

Contexte: Je fais actuellement un travail de comparaison de divers modèles hiérarchiques bayésiens. Les données sont des mesures numériques du bien-être du participant et du temps . J'ai environ 1000 participants et 5 à 10 observations par participant. $y_{ij}$ $i$ $j$

Comme avec la plupart des ensembles de données longitudinales, je m'attends à voir une certaine forme d'auto-corrélation par laquelle les observations qui sont plus proches dans le temps ont une plus grande corrélation que celles qui sont plus éloignées. Simplifiant certaines choses, le modèle de base est le suivant:

y_{je j} \sim N (μ_{je j}, σ^{2})

$y_{ij} \sim N(\mu_{ij}, \sigma^2)$

où je compare un modèle sans décalage:

μ_{je j} = β_{0 je}

$\mu_{ij} = \beta_{0i}$

avec un modèle de décalage:

μ_{je j} = β_{0 je} + β_{1} (y_{je (j - 1)} - β_{0 je})

$\mu_{ij} = \beta_{0i} + \beta_{1} (y_{i(j-1)} - \beta_{0i})$

où est une moyenne au niveau de la personne et est le paramètre de décalage (c'est-à-dire que l'effet de décalage ajoute un multiple de l'écart de l'observation par rapport au point temporel précédent de la valeur prédite de ce point temporel). J'ai également dû faire quelques choses pour estimer (c.-à-d. L'observation avant la première observation). $\beta_{0i}$ $\beta_1$ $y_{i0}$

Les résultats que j'obtiens indiquent que:

Le paramètre de décalage est d'environ 0,18, IC à 95% [.14, .21]. C'est à dire, ce n'est pas zéro
La déviance moyenne et le DIC augmentent tous les deux de plusieurs centaines lorsque le décalage est inclus dans le modèle
Les vérifications prédictives postérieures montrent qu'en incluant l'effet de décalage, le modèle est mieux en mesure de récupérer l'auto-corrélation dans les données

Donc, en résumé, le paramètre de décalage non nul et les vérifications prédictives postérieures suggèrent que le modèle de décalage est meilleur; mais la déviance moyenne et le DIC suggèrent que le modèle sans décalage est meilleur. Cela me laisse perplexe.

Mon expérience générale est que si vous ajoutez un paramètre utile, il devrait au moins réduire la déviance moyenne (même si après une pénalité de complexité, le DIC n'est pas amélioré). De plus, une valeur de zéro pour le paramètre de décalage aurait la même déviance que le modèle sans décalage.

Question

Pourquoi l'ajout d'un effet de décalage pourrait-il augmenter la déviance moyenne dans un modèle hiérarchique bayésien même lorsque le paramètre de décalage est non nul et améliore les vérifications prédictives postérieures?

Pensées initiales

J'ai fait beaucoup de vérifications de convergence (par exemple, en regardant des tracés; en examinant la variation des résultats de déviance entre les chaînes et les séries) et les deux modèles semblent avoir convergé sur la partie postérieure.
J'ai fait une vérification de code où j'ai forcé l'effet de décalage à zéro, et cela a permis de récupérer les déviations du modèle sans décalage.
J'ai également examiné la déviance moyenne moins la pénalité qui devrait donner la déviance aux valeurs attendues, et cela a également fait apparaître le modèle de décalage.
$\beta_{0i}$
Il y a peut-être un problème avec la façon dont j'ai estimé le point de temps implicite avant la première observation.
Peut-être que l'effet de décalage est juste faible dans ces données
J'ai essayé d'estimer le modèle en utilisant une probabilité maximale en utilisant lmeavec correlation=corAR1(). L'estimation du paramètre de décalage était très similaire. Dans ce cas, le modèle de décalage avait une plus grande probabilité logarithmique et un AIC plus petit (d'environ 100) que celui sans décalage (c'est-à-dire qu'il suggérait que le modèle de décalage était meilleur). Cela a donc renforcé l'idée que l'ajout du décalage devrait également réduire la déviance dans le modèle bayésien.
Il y a peut-être quelque chose de spécial dans les résidus bayésiens. Si le modèle de décalage utilise la différence entre y prévu et réel au point de temps précédent, alors cette quantité va être incertaine. Ainsi, l'effet de retard fonctionnera sur un intervalle crédible de ces valeurs résiduelles.

— Jeromy Anglim
source

Vous dites que le paramètre de décalage est d'environ 0,18. Avez-vous appris le paramètre lag? Si oui, quel avant avez-vous utilisé?

— Sommet

N (β_{0 i}, σ^{2})

$N(\beta_{0i}, \sigma^2)$

Voici mes pensées:

Au lieu de DIC, BIC, AIC, je suggère de travailler directement avec la probabilité marginale (également connue sous le nom de preuve ) si vous pouvez vous le permettre. Plus la preuve est grande , plus votre classe de modèle est probable. Cela peut ne pas faire une grande différence, mais DIC, BIC, AIC ne sont, après tout, que des approximations.
Afin de vérifier si un effet de décalage conduit à une plus grande probabilité marginale , je suggère d'effectuer la vérification initiale suivante: Prenez le modèle qui inclut le paramètre de décalage. (a) Fixez le paramètre lag à $0.18$ . (b) Réglez le paramètre de décalage à zéro . Calculez la probabilité marginale des deux classes de modèle. La classe de modèle (a) devrait avoir la plus grande probabilité marginale .
Allons plus loin: prenons le modèle qui ne prend pas en compte l'effet de décalage (c) et calculons sa probabilité marginale . Ensuite, prenez votre classe de modèle (d) qui incorpore l'effet de décalage et a un prior sur le paramètre de décalage; calculer la probabilité marginale de (d). Vous vous attendriez à ce que (d) ait une plus grande probabilité marginale . Et si vous ne le faites pas?:

(1) La vraisemblance marginale considère la classe de modèle dans son ensemble. Cela comprend l'effet de décalage, le nombre de paramètres, la probabilité, l'a priori.

(2) La comparaison de modèles qui ont un nombre différent de paramètres est toujours délicate, s'il y a une incertitude considérable dans la priorité des paramètres supplémentaires.

(3) Si vous spécifiez l'incertitude dans le précédent de votre paramètre de décalage déraisonnablement grand, vous pénalisez la classe de modèle entière.

(4) Quelles sont les informations qui soutiennent des probabilités égales pour des décalages négatifs et pour un décalage positif? Je pense qu'il est très peu probable d'observer un décalage négatif, et cela devrait être intégré dans le précédent.

(5) La priorité que vous avez choisie sur votre paramètre de décalage est uniforme. Ce n'est généralement jamais un bon choix: êtes-vous absolument sûr que vos paramètres doivent vraiment se situer à l'intérieur des limites spécifiées? Chaque valeur de décalage à l'intérieur des limites a-t-elle vraiment une probabilité égale? Ma suggestion: optez pour une distribution bêta (si vous êtes sûr que le décalage est limité; ou avec la log-normale si vous pouvez exclure des valeurs inférieures à zéro .

(6) Ceci est un exemple particulier, où l'utilisation de priors non informatifs n'est pas bonne (en regardant la probabilité marginale ): Vous serez toujours en faveur du modèle qui a un plus petit nombre de paramètres incertains; peu importe à quel point le modèle avec plus de paramètres pourrait être bon ou mauvais.

J'espère que mes pensées vous donneront de nouvelles idées, des conseils?!

— Sommet
source

Merci pour les conseils. Pour compléter les choses, j'ai essayé de contraindre le paramètre de décalage à avoir la valeur de la moyenne de la partie postérieure (c'est-à-dire 0,18). Le modèle sans décalage avait toujours la plus petite déviance moyenne.

— Jeromy Anglim