Je me demande si quelqu'un pourrait donner un aperçu de la raison pour laquelle l'imputation des données manquantes est meilleure que de simplement construire différents modèles pour les cas avec des données manquantes. Surtout dans le cas des modèles linéaires [généralisés] (je peux peut-être voir dans les cas non linéaires que les choses sont différentes)
Supposons que nous ayons le modèle linéaire de base:
Mais notre ensemble de données contient des enregistrements avec manquant. Dans l'ensemble de données de prédiction où le modèle sera utilisé, il y aura également des cas de manquant . Il semble y avoir deux façons de procéder:X 3
Plusieurs modèles
Nous pourrions diviser les données en cas et non et construire un modèle distinct pour chacun. Si nous supposons que est étroitement lié à le modèle de données manquant peut surpondérer pour obtenir la meilleure prédiction à deux prédicteurs. De plus, si les cas de données manquantes sont légèrement différents (en raison du mécanisme de données manquantes), il peut alors intégrer cette différence. En revanche, les deux modèles ne s'adaptent qu'à une partie des données chacun, et ne "s'entraident" pas, de sorte que l'ajustement peut être médiocre sur des ensembles de données limités.X 3 X 3 X 2 X 2
Imputation
Une imputation multiple de régression remplirait d'abord en construisant un modèle basé sur et , puis en échantillonnant au hasard pour maintenir le bruit dans les données imputées. Puisqu'il s'agit à nouveau de deux modèles, cela ne sera-t-il pas simplement le même que la méthode à modèles multiples ci-dessus? S'il est capable de surperformer - d'où vient le gain? Est-ce juste que l'ajustement pour est fait sur l'ensemble du plateau?X 1 X 2 X 1
ÉDITER:
Bien que la réponse de Steffan explique jusqu'à présent que l'ajustement du modèle de cas complet sur des données imputées surpassera l'ajustement sur des données complètes, et il semble évident que l'inverse est vrai, il y a encore un malentendu sur les prévisions de données manquantes.
Si j'ai le modèle ci-dessus, même parfaitement ajusté, ce sera en général un modèle de prévision terrible si je mets simplement zéro lors de la prévision. Imaginez, par exemple, que puis est complètement inutile ( ) lorsque est présent, mais serait toujours utile en l'absence de .X 2 β 2 = 0 X 3 X 3
La question clé que je ne comprends pas est: est-il préférable de construire deux modèles, un en utilisant et un en utilisant , ou est-il préférable de construire un seul modèle (complet) et d'utiliser imputation sur les ensembles de données de prévision - ou s'agit-il de la même chose?
En apportant la réponse de Steffan, il semblerait qu'il est préférable de construire le modèle de cas complet sur un ensemble de formation imputé, et inversement, il est probablement préférable de construire le modèle de données manquant sur l'ensemble de données complet avec rejeté. Cette deuxième étape est-elle différente de l'utilisation d'un modèle d'imputation dans les données de prévision?