J'ai une grande enquête dans laquelle on a demandé aux élèves, entre autres, le niveau de scolarité de leur mère. Certains l'ont sauté et certains ont répondu à tort. Je le sais, car un sous-échantillon de la mère des répondants initiaux a ensuite été interrogé et a posé la même question. (Je suis sûr qu'il y a aussi une quantité moindre d'erreurs associées aux réponses des mères.)
Mon défi est de décider comment tirer le meilleur parti de cette deuxième source de données plus fiable. À tout le moins, je peux l'utiliser pour imputer les données manquantes plus intelligemment que je ne le serais si je ne pouvais compter que sur des cas complets. Mais si 3/4 des enfants dont je peux recouper les données, qui répondent "Ma mère n'a jamais terminé l'école primaire" contredisent la réponse de leur mère, il semblerait que je devrais utiliser l'imputation pour créer plusieurs ensembles de données pour capturer l'incertitude là-bas. [ajouté: j'ai dit 3/4 pour faire un point, mais maintenant que j'ai vérifié les données, je pourrais aussi bien vous dire que près de 40% sont divergentes]
J'utiliserai personnellement l'éducation de la mère comme prédicteur dans un modèle mixte, mais si quelqu'un a quelque chose à dire sur d'autres situations, j'aimerais aussi en savoir plus à leur sujet.
J'adorerais recevoir des conseils en pointillés ou en détails. Je vous remercie!
Mise à jour : Je laisse la question non résolue pour le moment, bien que j'apprécie les réponses de Will et Conjugate_Prior, je garde espoir pour des commentaires plus spécifiques et techniques.
Le diagramme de dispersion ci-dessous vous donnera une idée de la façon dont les deux variables sont liées dans les 10 000 cas où les deux existent. Ils sont imbriqués dans plus de 100 écoles. Ils sont corrélés à 0,78, réponse de l'élève - moyenne: 5,12 sd = 2,05, réponse de maman, moyenne = 5,02, sd = 1,92. La réponse de l'élève est manquante dans environ 15% des cas.