Imputation pour tenir compte d'une erreur systématique dans les réponses à l'enquête

J'ai une grande enquête dans laquelle on a demandé aux élèves, entre autres, le niveau de scolarité de leur mère. Certains l'ont sauté et certains ont répondu à tort. Je le sais, car un sous-échantillon de la mère des répondants initiaux a ensuite été interrogé et a posé la même question. (Je suis sûr qu'il y a aussi une quantité moindre d'erreurs associées aux réponses des mères.)

Mon défi est de décider comment tirer le meilleur parti de cette deuxième source de données plus fiable. À tout le moins, je peux l'utiliser pour imputer les données manquantes plus intelligemment que je ne le serais si je ne pouvais compter que sur des cas complets. Mais si 3/4 des enfants dont je peux recouper les données, qui répondent "Ma mère n'a jamais terminé l'école primaire" contredisent la réponse de leur mère, il semblerait que je devrais utiliser l'imputation pour créer plusieurs ensembles de données pour capturer l'incertitude là-bas. [ajouté: j'ai dit 3/4 pour faire un point, mais maintenant que j'ai vérifié les données, je pourrais aussi bien vous dire que près de 40% sont divergentes]

J'utiliserai personnellement l'éducation de la mère comme prédicteur dans un modèle mixte, mais si quelqu'un a quelque chose à dire sur d'autres situations, j'aimerais aussi en savoir plus à leur sujet.

J'adorerais recevoir des conseils en pointillés ou en détails. Je vous remercie!

Mise à jour : Je laisse la question non résolue pour le moment, bien que j'apprécie les réponses de Will et Conjugate_Prior, je garde espoir pour des commentaires plus spécifiques et techniques.

Le diagramme de dispersion ci-dessous vous donnera une idée de la façon dont les deux variables sont liées dans les 10 000 cas où les deux existent. Ils sont imbriqués dans plus de 100 écoles. Ils sont corrélés à 0,78, réponse de l'élève - moyenne: 5,12 sd = 2,05, réponse de maman, moyenne = 5,02, sd = 1,92. La réponse de l'élève est manquante dans environ 15% des cas.

entrez la description de l'image ici

data-imputation

— Michael Bishop
source

Par curiosité, la première réponse a-t-elle été la réponse à cette question d'éducation «Ma mère n'a jamais terminé l'école primaire»? Si oui, je serais inquiet de la précision du reste de vos résultats de test pour ces candidats.

— Michelle

"Jusqu'où est-elle allée à l'école?" - 1) Huitième année ou moins

— Michael Bishop

Vous avez probablement un sous-ensemble de candidats qui ont coché la première option de réponse à chaque question. Pouvez-vous vérifier cela?

— Michelle

Ce complot est très perspicace. Il semble assez symétrique, ce qui n'est pas ce à quoi vous vous attendez si en fait un groupe d'enfants vient de cocher la première réponse. Si tel était le cas, les cas auraient tendance à se regrouper le long de la rangée du bas. Bien sûr, «regarder» symétrique ne garantit pas qu'il l'est, mais c'est un bon début. La forte corrélation que vous observez entre la réponse de la mère et celle de l'enfant est également cohérente avec cela.

— Will

Ahh. Je vois. Ensuite, je serais également (plus qu'un peu) réticent à imputer les données existantes et recommanderais que cela n'ait pas été fait du tout, malgré ce genre d'argument: gking.harvard.edu/gking/files/measure.pdf

— conjugateprior

Réponses:

La première chose à noter est que vos variables sont: "ce que l'élève a dit sur l'éducation de la mère" et "ce que la mère de l'élève a dit sur l'éducation de la mère de l'élève". Appelez-les respectivement S et M et étiquetez le vrai niveau non observé d'éducation de la mère comme T.

S et M ont tous deux des valeurs manquantes et il n'y a rien de mal (modulo l'observation ci-dessous) à mettre M et S dans un modèle d'imputation mais en utilisant seulement l'une d'entre elles dans l'analyse suivante. L'inverse serait toujours déconseillé.

Ceci est distinct de trois autres questions:

Une valeur manquante signifie-t-elle que les élèves ne savent pas ou ne veulent pas en dire autant sur leur mère?
Comment utiliser S et M pour en savoir plus sur T?
Avez-vous le bon type de manque pour permettre l'imputation multiple?

Ignorance et manque

Vous pourriez être intéressé par T, mais vous n'avez pas besoin de l'être: les perceptions du niveau de scolarité (via S, et peut-être M) ou le manque de connaissances des élèves peuvent être plus causalement intéressants que T lui-même. L'imputation peut être une voie sensée pour le premier, mais peut ou non pour le second. Tu dois décider.

En savoir plus sur T

Supposons que vous vous intéressez réellement à T. En l'absence d'une mesure de l'étalon-or (car vous doutez parfois de M), il est difficile de savoir comment vous pourriez combiner non arbitrairement S et M pour en savoir plus sur T. Si, par contre, vous étiez prêt à traiter le M comme correct lorsqu'il est disponible, vous pouvez alors utiliser S pour prédire M dans un modèle de classification qui contient d'autres informations des élèves, puis utiliser M plutôt que S dans l'analyse finale. La préoccupation ici concernerait le biais de sélection dans les cas sur lesquels vous vous êtes entraîné, ce qui conduit au troisième problème:

Manquant

L'imputation multiple peut fonctionner selon que les données manquent complètement au hasard (MCAR) ou manquent au hasard (MAR). S manque-t-il au hasard (MAR)? Peut-être pas, car les élèves pourraient avoir honte de répondre au sujet du manque d'éducation de leur mère et de sauter la question. Ensuite, la valeur seule détermine si elle sera manquante et l'imputation multiple ne peut pas aider ici. D'un autre côté, si le faible niveau de scolarité correspond à quelque chose qui est demandé et partiellement répondu dans l'enquête, par exemple un indicateur de revenu, alors le MAR peut être plus raisonnable et l'imputation multiple a quelque chose à saisir. M manque-t-il au hasard? Les mêmes considérations s'appliquent.

Enfin, même si vous êtes intéressé par T et que vous adoptez une approche de classification, vous voudrez toujours imputer pour adapter ce modèle.

— conjugateprior
source

Si vous supposez que le "taux de contradiction" est le même pour tout l'échantillon que pour le sous-échantillon dont les mères ont été interrogées, alors le sous-échantillon doit avoir été tiré au hasard. Dans votre description, vous ne le dites pas, donc je soulève cette question car je pense qu'elle a des implications importantes sur la façon dont vous pouvez utiliser ces informations du sous-échantillon ou pour tirer des conclusions sur l'ensemble de l'échantillon d'élèves.

Il me semble qu'il y a trois facettes à ce problème de contradiction.

1 est le taux de contradiction. Est-ce vraiment le cas que 3 / 4ème des étudiants ont deviné mal?

2 est le degré de tort - c'est une chose de dire que votre mère n'a jamais terminé l'école primaire alors qu'elle l'a terminé, mais s'est arrêtée là et une autre pour dire qu'elle n'a jamais terminé l'école primaire lorsqu'elle a un doctorat.

3 est la proportion de l'échantillon que vous pouvez recouper. Si vous tirez ces conclusions sur un sous-échantillon de 20, je parierais que les estimations sont assez instables et ne valent probablement pas grand-chose.

Il me semble que ce que vous ferez dépendra de votre réponse à ces questions et à la question que j'ai posée initialement. Par exemple, si 1 est assez élevé et 3 est assez élevé, je pourrais simplement utiliser le sous-échantillon et en finir avec lui. Si 1 est élevé mais 2 est faible, le problème ne semble pas si grave et, encore une fois, cela ne vaut pas la peine d'être dérangé.

Il vaut probablement aussi la peine de savoir si l'erreur est aléatoire ou systématique. Si les élèves ont tendance à sous-estimer systématiquement l'éducation de leur mère, c'est plus problématique que s'ils se trompent parfois complètement.

J'ai fait quelques imputations sur quelques papiers et il semble que je me crée toujours plus de problèmes en conséquence. Les examinateurs, dans ma région au moins, n'ont souvent pas une bonne maîtrise de la méthode et se méfient donc de son utilisation. J'ai l'impression qu'il est parfois préférable, du point de vue d'une publication, de simplement reconnaître le problème et de passer à autre chose. Mais dans ce cas, vous n'imputez pas vraiment les données manquantes, mais introduisez une sorte de variance d'erreur prévue pour la variable. C'est une question très intéressante et, mis à part toutes les préoccupations, je ne sais même pas comment j'y arriverais si je décidais que c'était la meilleure solution

— Volonté
source

Merci Will, j'ai clarifié certaines choses dans mon message d'origine. Le sous-échantillon est aléatoire. J'ai sorti la statistique 3/4 d'un chapeau pour faire un point. La vraie statistique est moindre. Je peux recouper environ 10 000 cas. Je suis sûr que l'erreur n'est pas purement aléatoire.

— Michael Bishop