Vous avez correctement noté l'estimateur groupé:
U¯=1m∑i=1mUi
Où représente les résultats analytiques du ème ensemble de données imputé. Normalement, les résultats analytiques ont une distribution d'approximation normale à partir de laquelle nous tirons une inférence ou créons des limites de confiance. Cela se fait principalement en utilisant la valeur moyenne ( ) et son erreur standard. Les tests T, les régressions linéaires, les régressions logistiques et, fondamentalement, la plupart des analyses peuvent être résumés de manière adéquate en termes de cette valeur et de son erreur standard .UiiUiUise(Ui)
Les règles de Rubin utilisent la loi de la variance totale pour noter la variance comme la somme d'une variance d'imputation entre et à l'intérieur:
var(U¯)=E[var(U¯|Ui)]+var(E[U¯|Ui])
Le premier terme est la variance intra telle que où est la variance du résultat de l'analyse du ème ensemble de données complet ou imputé. Le dernier terme est la variance entre imputations: . Je n'ai jamais vraiment saisi la correction DF ici, mais c'est fondamentalement l'approche acceptée.E[var(U¯|Ui)=1m∑mi=1ViViivar(E[U¯|Ui])=M+1M−1∑mi=1(Ui−U¯)2
Quoi qu'il en soit, étant donné que le nombre d'imputations recommandé est faible (Rubin suggère aussi peu que 5), il est généralement possible de calculer ce nombre en ajustant manuellement chaque analyse. Un exemple manuel est répertorié ci-dessous:
require(mice)
set.seed(123)
nhimp <- mice(nhanes)
sapply(1:5, function(i) {
fit <- lm(chl ~ bmi, data=complete(nhimp, i))
print(c('coef'=coef(fit)[2], 'var'=vcov(fit)[2, 2]))
})
Donne la sortie suivante:
coef.bmi var
2.123417 4.542842
3.295818 3.801829
2.866338 3.034773
1.994418 4.124130
3.153911 3.531536
Ainsi, la variance intra est la moyenne des variances d'estimation ponctuelle spécifiques à l'imputation: 3,8 (moyenne de la deuxième colonne). La variance entre est la variance de 0,35 de la première colonne). En utilisant la correction DF, nous obtenons la variance 4.23. Cela correspond à la pool
commande donnée dans le mice
package.
> fit <- with(data=nhimp,exp=lm(chl~bmi))
> summary(pool(fit))
est se t df Pr(>|t|) lo 95 hi 95 nmis fmi lambda
(Intercept) 119.03466 54.716451 2.175482 19.12944 0.04233303 4.564233 233.505080 NA 0.1580941 0.07444487
bmi 2.68678 2.057294 1.305978 18.21792 0.20781073 -1.631731 7.005291 9 0.1853028 0.10051760
qui montre le SE = 2,057 pour le coefficient du modèle, (variance = SE ** 2 = 4,23).
Je ne vois pas comment l'augmentation du nombre de jeux de données imputés crée un problème particulier. Si vous ne pouvez pas fournir un exemple de l'erreur, je ne sais pas comment être plus utile. Mais la combinaison manuelle est certaine de s'adapter à une variété de stratégies de modélisation.
Cet article examine d'autres façons dont la loi de la variance totale peut dériver d'autres estimations de la variance de l'estimation groupée. En particulier, les auteurs soulignent (à juste titre) que l'hypothèse nécessaire pour les règles de Rubin n'est pas la normalité des estimations ponctuelles mais quelque chose appelé la convivialité. Normalité WRT, la plupart des estimations ponctuelles provenant de modèles de régression ont une convergence rapide sous le théorème de la limite centrale, et le bootstrap peut vous le montrer.