Comparaison de modèles à effets mixtes avec le même nombre de degrés de liberté

15

J'ai une expérience que je vais essayer de résumer ici. Imaginez que je lance trois pierres blanches devant vous et vous demande de juger de leur position. J'enregistre une variété de propriétés des pierres et votre réponse. Je le fais sur un certain nombre de sujets. Je génère deux modèles. L'un est que la pierre la plus proche de vous prédit votre réponse, et l'autre est que le centre géométrique des pierres prédit votre réponse. Donc, utiliser lmer dans RI pourrait écrire.

mNear   <- lmer(resp ~ nearest + (1|subject), REML = FALSE)
mCenter <- lmer(resp ~ center  + (1|subject), REML = FALSE)

MISE À JOUR ET CHANGEMENT - version plus directe qui intègre plusieurs commentaires utiles

Je pourrais essayer

anova(mNear, mCenter)

Ce qui est incorrect, bien sûr, car ils ne sont pas imbriqués et je ne peux pas vraiment les comparer de cette façon. Je m'attendais à ce que anova.mer lance une erreur mais ce n'est pas le cas. Mais l'imbrication possible que je pourrais essayer ici n'est pas naturelle et me laisse encore des déclarations un peu moins analytiques. Lorsque les modèles sont imbriqués naturellement (par exemple quadratique sur linéaire), le test n'est que dans un sens. Mais dans ce cas, que signifierait avoir des résultats asymétriques?

Par exemple, je pourrais faire un modèle trois:

mBoth <- lmer(resp ~ center + nearest + (1|subject), REML = FALSE)

Ensuite, je peux anova.

anova(mCenter, mBoth)
anova(mNearest, mBoth)

C'est juste à faire et maintenant je trouve que le centre ajoute à l'effet le plus proche (la deuxième commande) mais BIC monte en fait quand le plus proche est ajouté au centre (correction pour la parcimonie inférieure). Cela confirme ce qui était suspecté.

Mais cela suffit-il? Et est-ce juste lorsque le centre et le plus proche sont si fortement corrélés?

Existe-t-il un meilleur moyen de comparer analytiquement les modèles lorsqu'il ne s'agit pas d'ajouter et de soustraire des variables explicatives (degrés de liberté)?

r mixed-model model-selection

— John
source

Vos modèles ne sont pas imbriqués, quelle serait la justification de l'utilisation d'un TLR entre les deux?

— chl

choses retraitées selon votre commentaire

— John

9

Néanmoins, vous pouvez calculer des intervalles de confiance pour vos effets fixes et signaler AIC ou BIC (voir par exemple Cnann et al. , Stat Med 1997 16: 2349).

Maintenant, vous pourriez être intéressé à jeter un coup d'œil à l' évaluation du mimétisme du modèle à l'aide du bootstrap paramétrique , de Wagenmakers et al. qui semble plus proche de votre question initiale sur l'évaluation de la qualité de deux modèles concurrents.

Sinon, les deux articles sur les mesures de la variance expliquée dans LMM qui me viennent à l'esprit sont:

Lloyd J. Edwards, Keith E. Muller, Russell D. Wolfinger, Bahjat F. Qaqish et Oliver Schabenberger (2008). Une statistique R2 pour les effets fixes dans le modèle linéaire mixte , Statistics in Medicine , 27 (29), 6137–6157.
Ronghui Xu (2003). Mesurer la variation expliquée dans les modèles linéaires à effets mixtes, Statistics in Medicine , 22 (22), 3527–3541.

Mais il y a peut-être de meilleures options.

— chl
source

11

Suivre la suggestion de ronaf conduit à un article plus récent de Vuong pour un test de rapport de vraisemblance sur des modèles non nichés. Il est basé sur le KLIC (Kullback-Leibler Information Criterion) qui est similaire à l'AIC en ce qu'il minimise la distance KL. Mais il établit une spécification probabiliste pour l'hypothèse de sorte que l'utilisation du TLR mène à une comparaison plus fondée sur des principes. Une version plus accessible des tests de Cox et Vuong est présentée par Clarke et al; voir en particulier la figure 3 qui présente l'algorithme de calcul du test Vuong LRT.

Tests de rapport de vraisemblance pour la sélection de modèles et les hypothèses non imbriquées (Vuong, 1999)
Tester des modèles non noués de relations internationales: réévaluer le réalisme (Clarke et al, 2000)

Il semble qu'il existe des implémentations R du test Vuong dans d'autres modèles, mais pas lmer. Néanmoins, le schéma mentionné ci-dessus devrait être suffisant pour en mettre en œuvre un. Je ne pense pas que vous pouvez obtenir la probabilité évaluée à chaque point de données de lmer comme requis pour le calcul. Dans une note sur sig-ME, Douglas Bates a quelques conseils qui pourraient être utiles (en particulier, la vignette qu'il mentionne).

Plus âgée

Une autre option consiste à considérer les valeurs ajustées des modèles dans un test de précision de prédiction. La statistique Williams-Kloot peut être appropriée ici. L'approche de base consiste à régresser les valeurs réelles par rapport à une combinaison linéaire des valeurs ajustées des deux modèles et à tester la pente:

Un test de discrimination entre les modèles (Atikinson, 1969)
Croissance et État providence dans l'UE: une analyse de causalité (Herce et al, 2001)

Le premier article décrit le test (et d'autres), tandis que le second a une application de celui-ci dans un modèle de panel économétrique.

Lors de l'utilisation lmeret de la comparaison des AIC, la fonction par défaut est d'utiliser la méthode REML (Restricted Maximum Likelihood). C'est très bien pour obtenir des estimations moins biaisées, mais lorsque vous comparez des modèles, vous devez réajuster ceux REML=FALSEqui utilisent la méthode du maximum de vraisemblance pour l'ajustement. Le livre Pinheiro / Bates mentionne une condition dans laquelle il est OK de comparer AIC / Likelihood avec REML ou ML, et ceux-ci peuvent très bien s'appliquer dans votre cas. Cependant, la recommandation générale est de simplement réajuster. Par exemple, voir le billet de Douglas Bates ici:

Comment puis-je extraire le score AIC d'un objet de modèle mixte produit à l'aide de lmer?

— ars
source

Je n'ai pas précisé que je correspondais avec REML = FALSE. Je suis quand même un peu embarrassé ... L'AIC me donne une mesure de la probabilité totale, y compris les effets aléatoires. C'est une grosse composante. Et bien sûr, les AIC sont très peu susceptibles d'être exactement les mêmes. Par conséquent, il semble imprudent de simplement sélectionner la valeur la plus élevée sans avoir de moyen analytique de dire combien elle est plus grande.

— John

@John Cette conférence met en évidence un point intéressant sur REML vs ML et AIC (et pointe sur ce que vous avez dit, John), j.mp/bhUVNt . L'examen de Bolker sur GLMM vaut également la peine d'être examiné: j.mp/cAepqA .

— chl

4

il y a un article de drcox qui discute des tests de modèles [non imbriqués] séparés. il considère quelques exemples, qui n'augmentent pas la complexité des modèles mixtes. [Comme mes installations avec le code R sont limitées, je ne sais pas exactement quels sont vos modèles.]

Le papier altho cox peut ne pas résoudre votre problème directement, il peut être utile de deux manières possibles.

vous pouvez rechercher des citations dans son article sur google scholar, pour voir si les résultats ultérieurs se rapprochent de ce que vous voulez.
si vous êtes analytique, vous pouvez essayer d'appliquer la méthode cox à votre problème. [peut-être pas pour les timides.]

btw-cox mentionne en passant l'idée que Srikant a abordée de combiner les deux modèles en un plus grand. il ne cherche pas comment on déciderait alors quel modèle est le meilleur, mais il remarque que même si aucun des deux modèles n'est très bon, le modèle combiné pourrait donner un ajustement adéquat aux données. [il n'est pas clair dans votre situation qu'un modèle combiné aurait du sens.]

— ronaf
source

3

Je ne connais pas assez bien R pour analyser votre code mais voici une idée:

Estimez un modèle où vous avez à la fois un centre et un voisin comme covariables (appelez ce mBoth). Ensuite, mCenter et mNear sont imbriqués dans mBoth et vous pouvez utiliser mBoth comme référence pour comparer les performances relatives de mCenter et mNear.

1

Je pensais que ce ne serait pas approprié parce que les deux seraient en fait très corrélés. Comme le centre est éloigné, le proche aura tendance à l'être.

— John

@John Bon point.

Je pense que votre argument est également bon ... Je ne suis en fait pas sûr que cela compte. Je sais que c'est haut mais moins de 0,8 ... toujours analysable.

— John