J'ai répété des mesures à 2 reprises dans un échantillon de personnes. Il y a 18 000 personnes au moment 1 et 13 000 personnes au moment 2 (5 000 perdues de vue).
Je veux régresser un résultat Y mesuré au temps 2 (et le résultat ne peut pas être mesuré au temps 1) sur un ensemble de prédicteurs X mesurés au temps 1. Toutes les variables ont des données manquantes. La plupart semblent relativement aléatoires, ou le manque semble bien décrit par les données observées. Cependant, la grande majorité des lacunes dans le résultat Y est due à la perte de suivi. J'utiliserai l'imputation multiple (souris R ::) et utiliserai l'ensemble de données complet pour imputer les valeurs de X, mais j'ai reçu 2 conseils contradictoires concernant l'imputation de Y:
1) Imputez Y à partir de X et V (V = variables auxiliaires utiles) dans l'échantillon complet de 18k.
2) Ne pas imputer Y à des individus perdus de vue (et donc les supprimer de toute modélisation de régression ultérieure).
Le premier est logique parce que l'information est une information, alors pourquoi ne pas tout utiliser; Mais ce dernier fait également sens, d'une manière plus intuitive - il semble juste de ne pas imputer le résultat pour 5000 personnes sur la base de Y ~ X + V, puis de faire demi-tour et d'estimer Y ~ X.
Qu'est-ce qui est (plus) correct?
Cette question précédente est utile, mais ne traite pas directement de la disparition due à une perte de suivi (bien que la réponse soit peut-être la même; je ne sais pas).