QUESTION:
J'ai des données binaires sur les questions d'examen (correctes / incorrectes). Certaines personnes peuvent avoir eu accès auparavant à un sous-ensemble de questions et à leurs réponses correctes. Je ne sais pas qui, combien ou quoi. S'il n'y avait pas de triche, supposons que je modélise la probabilité d'une réponse correcte pour l'élément comme , où représente la difficulté de la question et est la capacité latente de l'individu. Il s'agit d'un modèle de réponse d'items très simple qui peut être estimé avec des fonctions comme rasch de ltm () dans R. En plus des estimations (où indexe les individus) de la variable latente, j'ai accès à des estimations séparéesl o g i t ( ( p i = 1 | z ) ) = β i + z β i z z j j q j de la même variable latente dérivée d'un autre ensemble de données dans lequel la tricherie n'était pas possible.
Le but est d'identifier les individus qui ont probablement triché et les objets sur lesquels ils ont triché. Quelles approches pourriez-vous adopter? En plus des données brutes, , et sont tous disponibles, bien que les deux premiers aient un biais dû à la triche. Idéalement, la solution se présenterait sous la forme d'un regroupement / classification probabiliste, bien que cela ne soit pas nécessaire. Les idées pratiques sont les bienvenues, tout comme les approches formelles. z j q j
Jusqu'à présent, j'ai comparé la corrélation des scores de questions pour les paires d'individus avec des scores plus élevés vs plus bas (où est un indice approximatif de la probabilité qu'ils aient triché). Par exemple, j'ai trié les individus par , puis tracé la corrélation des paires successives de scores de questions des individus. J'ai également essayé de tracer la corrélation moyenne des scores pour les individus dont les valeurs étaient supérieures au quantile de , en fonction de . Aucun schéma évident pour l'une ou l'autre approche. q j - z j q j - z j q j - z jnth q j - z jn
MISE À JOUR:
J'ai fini par combiner les idées de @SheldonCooper et le document utile de Freakonomics vers lequel @whuber m'a pointé. D'autres idées / commentaires / critiques sont les bienvenus.
Soit le score binaire de la personne sur la question . Estimer le modèle de réponse de l'élément où est le paramètre de facilité de l'élément et est une variable de capacité latente. (Un modèle plus compliqué peut être remplacé; I utilise un 2PL dans mon application). Comme je l'ai mentionné dans mon article d'origine, j'ai des estimations de la variable de capacité à partir d'un ensemble de données séparé (différents éléments, mêmes personnes) sur quelle tricherie n'était pas possible. Plus précisément, sont des estimations bayésiennes empiriques du même modèle de réponse d'item que ci-dessus. j i l o g i t ( P r ( X i j = 1 | z j )β i z j ^ q j { y i j } ^ q j
La probabilité du score observé , conditionnelle à la facilité de l'item et à la capacité de la personne, peut être écrite où est la probabilité prédite de une réponse correcte, et est le logit inverse. Ensuite, en fonction des caractéristiques de l'élément et de la personne, la probabilité conjointe que la personne ait les observations est et de même, la probabilité conjointe que l'élément ait les observations p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) x i j ( 1 - P i j ( ^ β i , ^ q j ) i j , P
Une autre étape que j'ai essayée est de prendre r% des personnes les moins probables (c'est-à-dire les personnes ayant le r% le plus bas de valeurs triées de p_j), de calculer la distance moyenne entre leurs scores observés x_j (qui devrait être corrélée pour les personnes avec un r faible, qui sont des tricheurs possibles), et tracez-le pour r = 0,001, 0,002, ..., 1.000. La distance moyenne augmente pour r = 0,001 à r = 0,025, atteint un maximum, puis diminue lentement jusqu'à un minimum à r = 1. Pas exactement ce que j'espérais.