J'ai récemment commencé à apprendre les modèles mixtes linéaires généralisés et j'utilisais R pour explorer la différence que cela fait de traiter l'appartenance à un groupe comme un effet fixe ou aléatoire. En particulier, je regarde l'exemple de jeu de données discuté ici:
http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm
http://www.ats.ucla.edu/stat/r/dae/melogit.htm
Comme indiqué dans ce tutoriel, l'effet de Doctor ID est appréciable et je m'attendais à ce que le modèle mixte avec une interception aléatoire donne de meilleurs résultats. Cependant, la comparaison des valeurs AIC pour les deux méthodes suggère que ce modèle est pire:
> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)
Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial,
data = hdp)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5265 -0.6278 -0.2272 0.5492 2.7329
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.560e+01 1.219e+03 -0.013 0.990
Age -5.869e-02 5.272e-03 -11.133 < 2e-16 ***
Married1 2.688e-01 6.646e-02 4.044 5.26e-05 ***
IL6 -5.550e-02 1.153e-02 -4.815 1.47e-06 ***
DID2 1.805e+01 1.219e+03 0.015 0.988
DID3 1.932e+01 1.219e+03 0.016 0.987
[...]
DID405 1.566e+01 1.219e+03 0.013 0.990
DID405 1.566e+01 1.219e+03 0.013 0.990
DID406 -2.885e-01 3.929e+03 0.000 1.000
DID407 2.012e+01 1.219e+03 0.017 0.987
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 10353 on 8524 degrees of freedom
Residual deviance: 6436 on 8115 degrees of freedom
AIC: 7256
Number of Fisher Scoring iterations: 17
> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m
Generalized linear mixed model fit by the Laplace approximation
Formula: remission ~ Age + Married + IL6 + (1 | DID)
Data: hdp
AIC BIC logLik deviance
7743 7778 -3867 7733
Random effects:
Groups Name Variance Std.Dev.
DID (Intercept) 3.8401 1.9596
Number of obs: 8525, groups: DID, 407
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.461438 0.272709 5.359 8.37e-08 ***
Age -0.055969 0.005038 -11.109 < 2e-16 ***
Married1 0.260065 0.063736 4.080 4.50e-05 ***
IL6 -0.053288 0.011058 -4.819 1.44e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) Age Marrd1
Age -0.898
Married1 0.070 -0.224
IL6 -0.162 0.012 -0.033
> extractAIC(GLM) ; extractAIC(GLMM)
[1] 410.000 7255.962
[1] 5.000 7743.188
Ainsi, mes questions sont:
(1) Est-il approprié de comparer les valeurs AIC fournies par les deux fonctions? Si oui, pourquoi le modèle à effet fixe fait-il mieux?
(2) Quelle est la meilleure façon d'identifier si les effets fixes ou aléatoires sont plus importants (c.-à-d. Pour quantifier que la variabilité due au médecin est plus importante que les caractéristiques du patient?
DIDà la fois un effet fixe et une interception aléatoire dans le 2ème modèle. De plus, l'avoir comme effet fixe dans le 1er modèle signifie que le choix b / t ces 2 serait de quelle manière penser l'effetDID, et non s'il doit être inclus. Sur une note différente, je remarque que vous avez un article (2); vouliez-vous avoir un élément (1) quelque part?