Comment puis-je corriger l'erreur de mesure dans la variable dépendante dans une régression logit?

8

J'exécute une régression logit binaire où je sais que la variable dépendante est mal codée dans un petit pourcentage de cas. J'essaie donc d'estimer la dans ce modèle: $\beta$

$prob(y_i) = 1/(1 + e^{-z_i})$

$z_i = \alpha + X_i\beta$

Mais au lieu du vecteur , j'ai , qui inclut quelques erreurs aléatoires (ie , mais , ou vice versa, pour certains ). $Y$ $\tilde{Y}$ $y_i = 1$ $\tilde{y_i} = 0$ $i$

Existe-t-il une correction (raisonnablement) simple de ce problème?

Je sais que le logit a de belles propriétés dans les études cas-témoins. Il semble probable que quelque chose de similaire s'applique ici, mais je n'ai pas été en mesure de trouver une bonne solution.

Quelques autres contraintes: il s'agit d'une application d'exploration de texte, donc les dimensions de sont grandes (par milliers ou dizaines de milliers). Cela peut exclure certaines procédures gourmandes en calcul. $X$

De plus, je ne me soucie pas d'estimer correctement , seulement . $\alpha$ $\beta$

logistic measurement-error

— Abe
source

2

Cette situation est souvent appelée erreur de classification erronée. Ce document peut vous aider à estimer correctement . EDIT: J'ai trouvé des articles d'apparence pertinente en utilisant http://www.google.com/search?q=misclassification+of+dependent+variable+logistic . $\beta$

— GaBorgulya
source

1

Selon l'abrégé, cet article semble traiter d'une «covariable binaire sujette aux erreurs», c'est-à-dire uniquement avec des variables indépendantes mal classées .

— whuber

1

En fait, l'abrégé traite des deux: «Pour une classification erronée des résultats, nous soutenons qu'une analyse basée sur la vraisemblance est l'approche la plus claire et la plus préférable. Dans le cas d'une classification erronée covariable, nous combinons [....]

— rolando2

2

Vous pouvez soit estimer un modèle paramétrique de l'erreur à l'aide de MLE, soit utiliser une approche semi-paramétrique basée sur quelque chose comme l'estimateur de corrélation de rang maximal (MRC). Sur le plan informatique, le MRC est prohibitif pour les grands échantillons, il semble donc que le MLE soit la bonne approche pour moi.

Merci à GaBorgulya pour une bonne direction rapide, en particulier sur le terme "erreur de mauvaise classification".

Voici quelques bonnes sources sur le sujet:

Le modèle de base, exactement comme décrit dans le problème d'origine

Version non fermée du même

Un modèle plus compliqué mais plus général

Un bel aperçu

— Abe
source