J'ai appris en statistique élémentaire qu'avec un modèle linéaire général, pour que les inférences soient valides, les observations doivent être indépendantes. Lorsque le regroupement se produit, l'indépendance peut ne plus tenir, ce qui conduit à une inférence non valide, sauf si cela est pris en compte. Une façon de prendre en compte un tel regroupement consiste à utiliser des modèles mixtes. J'aimerais trouver un exemple d'ensemble de données, simulé ou non, qui le démontre clairement. J'ai essayé d'utiliser l'un des exemples de jeux de données sur le site UCLA pour analyser les données en cluster
> require(foreign)
> require(lme4)
> dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta")
> m1 <- lm(api00~growth+emer+yr_rnd, data=dt)
> summary(m1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 740.3981 11.5522 64.092 <2e-16 ***
growth -0.1027 0.2112 -0.486 0.6271
emer -5.4449 0.5395 -10.092 <2e-16 ***
yr_rnd -51.0757 19.9136 -2.565 0.0108 *
> m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), data=dt)
> summary(m2)
Fixed effects:
Estimate Std. Error t value
(Intercept) 748.21841 12.00168 62.34
growth -0.09791 0.20285 -0.48
emer -5.64135 0.56470 -9.99
yr_rnd -39.62702 18.53256 -2.14
À moins que je manque quelque chose, ces résultats sont suffisamment similaires pour que je ne pense pas que la sortie de lm()
n'est pas valide. J'ai examiné quelques autres exemples (par exemple 5.2 du Bristol University Center for Multilevel Modeling ) et j'ai constaté que les erreurs standard ne sont pas non plus très différentes (je ne suis pas intéressé par les effets aléatoires eux-mêmes du modèle mixte, mais il convient de noter que l'ICC de la sortie du modèle mixte est de 0,42).
Donc, mes questions sont 1) dans quelles conditions les erreurs standard seront-elles nettement différentes lors du clustering, et 2) quelqu'un peut-il fournir un exemple d'un tel ensemble de données (simulé ou non).