Ma question en bref: existe-t-il des méthodes pour améliorer le temps de fonctionnement de R MICE (imputation de données)?
Je travaille avec un ensemble de données (30 variables, 1,3 million de lignes) qui contient (assez aléatoirement) des données manquantes. Environ 8% des observations dans environ 15 des 30 variables contiennent des NA. Afin d'imputer les données manquantes, j'exécute la fonction MICE, qui fait partie du package MICE .
J'exécute un temps d'exécution assez lent, même sur un sous-ensemble (100 000 lignes), avec method = "fastpmm" et m = 1 et fonctionne pendant environ 15 minutes.
Existe-t-il un moyen d'améliorer le temps de fonctionnement sans perdre trop de performances? (mice.impute.mean est assez rapide, mais s'accompagne d'une importante perte d'informations!).
Code reproductible:
library(mice)
df <- data.frame(replicate(30,sample(c(NA,1:10),1000000,rep=TRUE)))
df <- data.frame(scale(df))
output <- mice(df, m=1, method = "fastpmm")