L'imputation multiple est assez simple lorsque vous disposez d' un modèle linéaire a priori que vous souhaitez estimer. Cependant, les choses semblent être un peu plus délicates lorsque vous voulez réellement faire une sélection de modèle (par exemple trouver le "meilleur" ensemble de variables prédictives à partir d'un ensemble plus large de variables candidates - je pense spécifiquement à LASSO et aux polynômes fractionnaires utilisant R).
Une idée serait d'ajuster le modèle dans les données d'origine avec des valeurs manquantes, puis de réestimer ce modèle dans les ensembles de données MI et de combiner les estimations comme vous le feriez normalement. Cependant, cela semble problématique dans la mesure où vous vous attendez à un biais (ou bien pourquoi le MI en premier lieu?), Ce qui pourrait conduire à sélectionner un "mauvais" modèle dès le départ.
Une autre idée serait de passer par le processus de sélection de modèle que vous utilisez dans chaque ensemble de données MI - mais comment combineriez-vous ensuite les résultats s'ils incluent différents ensembles de variables?
J'ai pensé que je devais empiler un ensemble d'ensembles de données MI et les analyser comme un seul grand ensemble de données que vous utiliseriez ensuite pour adapter un seul et "meilleur" modèle, et inclure un effet aléatoire pour tenir compte du fait que vous utilisez des mesures répétées pour chaque observation.
Cela vous semble-t-il raisonnable? Ou peut-être incroyablement naïf? Tout pointeur sur cette question (sélection de modèle avec imputation multiple) serait grandement apprécié.