J'ai un ensemble de données sur les essais agricoles. Ma variable de réponse est un rapport de réponse: log (traitement / contrôle). Je m'intéresse à ce qui intervient dans la différence, donc je lance des méta-régressions RE (non pondérées, car il semble assez clair que la taille de l'effet n'est pas corrélée avec la variance des estimations).
Chaque étude rapporte le rendement en grains, le rendement en biomasse ou les deux. Je ne peux pas imputer le rendement en céréales à partir d'études qui rapportent uniquement le rendement en biomasse, car toutes les plantes étudiées n'étaient pas utiles pour le grain (la canne à sucre est incluse, par exemple). Mais chaque plante qui produisait du grain avait aussi de la biomasse.
Pour les covariables manquantes, j'ai utilisé l'imputation par régression itérative (suivant le chapitre du manuel d'Andrew Gelman). Il semble donner des résultats raisonnables et l'ensemble du processus est généralement intuitif. Fondamentalement, je prédis les valeurs manquantes, et j'utilise ces valeurs prédites pour prédire les valeurs manquantes, et je passe en revue chaque variable jusqu'à ce que chaque variable converge approximativement (dans la distribution).
Y a-t-il une raison pour laquelle je ne peux pas utiliser le même processus pour imputer des données de résultats manquantes? Je peux probablement former un modèle d'imputation relativement informatif pour le taux de réponse de la biomasse compte tenu du taux de réponse des grains, du type de culture et d'autres covariables que j'ai. Je ferais ensuite la moyenne des coefficients et des VCV, et j'ajouterais la correction MI selon la pratique standard.
Mais que mesurent ces coefficients lorsque les résultats eux-mêmes sont imputés? L'interprétation des coefficients est-elle différente de l'IM standard pour les covariables? En y réfléchissant, je ne peux pas me convaincre que cela ne fonctionne pas, mais je ne suis pas vraiment sûr. Les réflexions et suggestions de lecture sont les bienvenues.