J'exécute une régression logit binaire où je sais que la variable dépendante est mal codée dans un petit pourcentage de cas. J'essaie donc d'estimer la dans ce modèle:
Mais au lieu du vecteur , j'ai , qui inclut quelques erreurs aléatoires (ie , mais , ou vice versa, pour certains ).
Existe-t-il une correction (raisonnablement) simple de ce problème?
Je sais que le logit a de belles propriétés dans les études cas-témoins. Il semble probable que quelque chose de similaire s'applique ici, mais je n'ai pas été en mesure de trouver une bonne solution.
Quelques autres contraintes: il s'agit d'une application d'exploration de texte, donc les dimensions de sont grandes (par milliers ou dizaines de milliers). Cela peut exclure certaines procédures gourmandes en calcul.
De plus, je ne me soucie pas d'estimer correctement , seulement .