Comment puis-je gérer au mieux les effets des marqueurs avec différents niveaux de générosité dans la notation des articles des étudiants?


13

Environ 600 étudiants ont obtenu un score sur une évaluation approfondie, qui peut être considérée comme ayant une bonne fiabilité / validité. L'évaluation est notée sur 100, et c'est un test à choix multiple marqué par ordinateur.

Ces 600 élèves ont également obtenu des notes sur une deuxième évaluation mineure. Dans cette deuxième évaluation, ils sont séparés en 11 cohortes avec 11 classeurs différents, et il y a un degré de variation indésirable important entre les classeurs en termes de `` générosité '' dans le marquage, ou d'absence. Cette deuxième évaluation est également notée sur 100.

Les étudiants n'ont pas été assignés aux cohortes au hasard, et il y a de bonnes raisons de s'attendre à des différences de niveaux de compétence entre les cohortes.

Je suis chargé de veiller à ce que les différences entre les marqueurs de cohorte du deuxième devoir n'affectent / ne désavantagent pas matériellement les étudiants individuels.

Mon idée est de faire coïncider les scores de cohorte de la deuxième évaluation avec les scores de cohorte de la première, tout en maintenant les différences individuelles au sein des cohortes. Nous devons supposer que j'ai de bonnes raisons de croire que les performances sur les deux tâches seront fortement corrélées, mais que les marqueurs diffèrent considérablement dans leur générosité.

Est-ce la meilleure approche? Sinon, c'est quoi?

Il serait grandement apprécié que le répondeur puisse donner quelques conseils pratiques sur la façon de mettre en œuvre une bonne solution, par exemple dans R ou SPSS ou Excel.


3
Grande question! Les notes finales pour le choix multiple et les parties de dissertation sont-elles censées être comparables (c.-à-d. Les mêmes plages numériques)?
gung - Rétablir Monica

2
Au moment où j'écrivais cette question, je pensais que cela pourrait vous intéresser! Les scores finaux sont globalement comparables, mais un peu différents. La moyenne sur la section à choix multiples est ~ 70 avec une SD autour de 15. La moyenne sur l'autre section est ~ 85 avec une SD autour de 6.
user1205901 - Rétablir Monica

7
Je me méfierais de tout effort pour résoudre ce problème basé uniquement sur les données que vous avez décrites, car il devrait reposer sur l'hypothèse forte (et non testable) qu'il n'y a pas d'interaction entre la cohorte et les performances sur les deux instruments de test distincts. Si vous le pouvez, envisagez la possibilité de mener une petite expérience distincte pour calibrer les niveleuses.
whuber

9
Pour mieux voir où se situe le problème, supposons (hypothétiquement) que (1) les deux formes d'évaluation sont à choix multiples et à dissertation et (2) vos élèves plus âgés ont tendance à faire relativement mieux sur les questions à dissertation. Lorsque vous utilisez vos données pour rendre les scores «cohérents», vous confondez les effets de niveleuse avec les effets d'âge et, en faisant des ajustements, désavantagez systématiquement les élèves les plus âgés par rapport aux plus jeunes. Peu importe la sophistication d'un algorithme que vous choisissez, il ne peut que résoudre ce problème de base. Vous avez besoin des données supplémentaires pour résoudre ce confondant.
whuber

3
Une chose à considérer est comment vous vous seriez en train d' expliquer la procédure d'ajustement aux étudiants ou d' autres parties prenantes: beaucoup pourraient se sentir que , compte tenu d' un problème potentiel avec le marquage, mettre un peu d' effort dans un bon étalonnage des marqueurs ne serait pas trop attendre si l'examen est important.
Scortchi - Réintégrer Monica

Réponses:


8

Savoir comment niveleuses diffèrent est bon, mais ne vous dit pas ce que pour compenser les grades à . Pour plus de simplicité, imaginez seulement deux niveleuses. Même si nous concluons que la niveleuse 1 est systématiquement 5 points plus généreuse que la niveleuse 2, cela ne vous dit pas quoi faire avec deux élèves qui ont chacun obtenu la note 70, un par la niveleuse 1 et un par la niveleuse 2. Disons-nous que la niveleuse 2 était un marqueur dur, et augmenter que 70 à 75, tout en gardant le 70 marqué par la niveleuse 1 inchangé? Ou supposons-nous que la niveleuse 1 était indulgente, abaissons son élève à 65 points et maintenons la niveleuse 2 70 inchangée? Comprenons-nous à mi-chemin entre - l'étendue de votre cas, sur la base d'une moyenne de 11 élèves? Ce sont les notes absolues qui comptent, donc connaître la générosité relative ne suffit pas.

Votre conclusion peut dépendre de la façon dont vous pensez que la note absolue finale doit être "objective". Un modèle mental serait de proposer à chaque élève une note «correcte» - celle qui serait attribuée par l'évaluateur principal s'il avait le temps de noter chaque article individuellement - à laquelle les notes observées sont des approximations. Dans ce modèle, les notes observées doivent être compensées pour leur classe, afin de les rapprocher le plus possible de leur "vraie" note non observée. Un autre modèle pourrait être que toutes les notes sont subjectives, et nous cherchons à transformer chaque note observée vers la note que nous prévoyons qu'elle aurait été attribuée si tous les correcteurs avaient considéré le même papier et avaient atteint une sorte de compromis ou de note moyenne pour cela. Je trouve le deuxième modèle moins convaincant comme solution même si l'admission de la subjectivité est plus réaliste. Dans un environnement éducatif, il y a généralement quelqu'un qui assume la responsabilité ultime de l'évaluation, pour s'assurer que les étudiants reçoivent "la note qu'ils méritent", mais ce rôle principal a essentiellement déchargé la responsabilité des mêmes élèves que nous connaissons déjà en désaccord marqué. A partir de là, je suppose qu'il y aest une note «correcte» que nous visons à estimer, mais il s'agit d'une proposition contestable et peut ne pas correspondre à votre situation.

Supposons que les élèves A, B, C et D, tous dans la même cohorte, «devraient» être notés respectivement 75, 80, 85 et 90, mais leur généreux correcteur note systématiquement 5 points de trop. Nous observons 80, 85, 90 et 95 et devrions soustraire 5, mais trouver le chiffre à soustraire est problématique. Cela ne peut pas être fait en comparant les résultats entre les cohortes, car nous nous attendons à ce que les cohortes varient en capacité moyenne. Une possibilité consiste à utiliser les résultats des tests à choix multiples pour prédire les bons scores lors de la deuxième affectation, puis à utiliser cette option pour évaluer la variation entre chaque classeur et les bonnes notes. Mais faire cette prédiction n'est pas anodin - si vous vous attendez à une moyenne et à un écart-type différents entre les deux évaluations, vous ne pouvez pas simplement supposer que les deuxièmes notes d'évaluation devraient correspondre à la première.

De plus, les élèves diffèrent dans leurs aptitudes relatives aux évaluations à choix multiples et aux évaluations écrites. Vous pourriez considérer cela comme une sorte d'effet aléatoire, formant une composante des notes «observées» et «vraies» de l'élève, mais non capturé par sa note «prédite». Si les cohortes diffèrent systématiquement et que les étudiants d'une cohorte ont tendance à être similaires, nous ne devrions pas nous attendre à ce que cet effet soit en moyenne nul pour chaque cohorte. Si les notes observées d'une cohorte sont en moyenne de +5 par rapport à celles prévues, il est impossiblepour déterminer si cela est dû à un correcteur généreux, à une cohorte particulièrement mieux adaptée à l'évaluation écrite qu'à choix multiple, ou à une combinaison des deux. Dans un cas extrême, la cohorte peut même avoir une aptitude plus faible lors de la deuxième évaluation, mais cela a été plus que compensé par un correcteur très généreux - ou vice versa. Vous ne pouvez pas le séparer. C'est confondu.

Je doute également de l'adéquation d'un modèle additif aussi simple pour vos données. Les correcteurs peuvent différer de l'évaluateur principal non seulement par le changement de lieu, mais aussi par la propagation - bien que comme les cohortes varient probablement en homogénéité, vous ne pouvez pas simplement vérifier la répartition des notes observées dans chaque cohorte pour le détecter. De plus, la majeure partie de la distribution a des scores élevés, assez proches du maximum théorique de 100. Je prévois que cela introduira une non-linéarité due à une compression proche du maximum - une niveleuse très généreuse peut donner des notes A, B, C et D comme 85, 90, 94, 97. C'est plus difficile à inverser que de simplement soustraire une constante. Pire, vous pourriez voir des «coupures» - une niveleuse extrêmement généreuse peut les classer comme 90, 95, 100, 100. Ceci est impossibleinversé, et les informations sur les performances relatives de C et D sont irrémédiablement perdues.

Vos classeurs se comportent très différemment. Êtes-vous sûr qu'ils ne diffèrent que par leur générosité globale, plutôt que par leur générosité dans les différentes composantes de l'évaluation? Cela pourrait valoir la peine d'être vérifié, car cela pourrait introduire diverses complications - par exemple, la note observée pour B peut être pire que celle de A, bien que B soit 5 points «meilleur», même si les notes attribuées par le correcteur pour chaque composant sont une fonction augmentant de façon monotone de l'évaluateur principal! Supposons que l'évaluation soit divisée entre Q1 (A devrait marquer 30/50, B 45/50) et Q2 (A devrait marquer 45/50, B 35/50). Imaginez que la niveleuse soit très clémente sur Q1 (notes observées: A 40/50, B 50/50) mais sévère sur Q2 (observée: A 42/50, 30/50), alors nous observons des totaux de 82 pour A et 80 pour B. Si vous devez tenir compte des scores des composants,

Il s'agit sans doute d'un commentaire étendu plutôt que d'une réponse, dans le sens où il ne propose pas de solution particulière dans les limites d'origine de votre problème. Mais si vos classeurs traitent déjà environ 55 papiers chacun, alors est-ce si mauvais pour eux d'avoir à en examiner cinq ou dix de plus à des fins d'étalonnage? Vous avez déjà une bonne idée des capacités des élèves, vous pouvez donc choisir un échantillon de documents dans toute la gamme des notes. Vous pouvez ensuite évaluer si vous devez compenser la générosité de la niveleuse sur l'ensemble du test ou dans chaque composant, et si vous devez le faire simplement en ajoutant / soustrayant une constante ou par quelque chose de plus sophistiqué comme l'interpolation (par exemple, si vous avez peur de ne pas linéarité proche de 100). Mais un mot d'avertissement sur l'interpolation: supposons que l'évaluateur principal marque cinq échantillons d'articles comme 70, 75, 80, 85 et 90, alors qu'une niveleuse les marque comme 80, 88, 84, 93 et ​​96, il y a donc un certain désaccord sur l'ordre. Vous voulez probablement mapper les notes observées de 96 à 100 sur l'intervalle 90 à 100, et les notes observées de 93 à 96 sur l'intervalle 85 à 90. Mais une certaine réflexion est nécessaire pour les notes inférieures. Peut-être que les notes observées de 84 à 93 devraient être mises en correspondance avec l'intervalle 75 à 85? Une alternative serait une régression (éventuellement polynomiale) pour obtenir une formule pour le "vrai grade prévu" à partir du "grade observé". Peut-être que les notes observées de 84 à 93 devraient être mises en correspondance avec l'intervalle 75 à 85? Une alternative serait une régression (éventuellement polynomiale) pour obtenir une formule pour le "vrai grade prévu" à partir du "grade observé". Peut-être que les notes observées de 84 à 93 devraient être mises en correspondance avec l'intervalle 75 à 85? Une alternative serait une régression (éventuellement polynomiale) pour obtenir une formule pour le "vrai grade prévu" à partir du "grade observé".


1
Malheureusement, la nature de l'évaluation 2 ne permet pas aux classeurs de regarder davantage à des fins d'étalonnage. Vous pouvez le considérer comme une récitation de poésie orale qui a été faite une fois sans enregistrement et qui a été évaluée immédiatement après. Il ne serait pas pratique de programmer de nouvelles récitations uniquement à des fins d'étalonnage. Pour répondre à votre autre question, l'évaluation 2 n'avait pas vraiment de sous-composants clairs, et nous n'avons pas besoin de prendre en compte les scores des composants.
user1205901

1
Ce n'est "pas une réponse", mais dans un monde idéal, j'aurais suggéré de changer les choses et d'utiliser un exemple d'exemple (éventuellement des affectations artificielles délibérément conçues pour être à la limite des notes, plutôt que par de vrais étudiants) comme moyen de formation. les classeurs d'avoir la même générosité, plutôt que de déduire et de compenser leurs générosités. Si les évaluations sont faites, ce n'est clairement pas une solution pour vous.
Silverfish

1
(+1) Très complet "pas de réponse". La cohérence dans les tests plutôt subjectifs peut souvent être grandement améliorée en divisant la tâche de classement en composants - sinon un classeur pourrait donner plus de poids au rythme, un autre à la projection, etc.
Scortchi - Réintégrer Monica

Il est clair qu'en plus de soumettre un éventuel ajustement à la personne qui décidera finalement de la question, je devrai également présenter quelques explications sur les avantages et les inconvénients d'un ajustement. Votre réponse fournit de nombreux documents utiles à ce sujet. Cependant, je me demande quels critères je peux utiliser pour juger s'il est plus avantageux de tout laisser seul ou de faire un changement. Je regarde les notes de cohorte et mon intuition dit que les différences entre les marqueurs ont un grand impact. L'intuition n'est pas fiable, mais je ne sais pas quoi faire d'autre dans ce cas.
user1205901

2
Une question est de savoir si vous avez des motifs raisonnables de croire que l'effet "aptitude à une tâche différentielle" est faible, en particulier lorsqu'il est calculé en moyenne sur une cohorte, par rapport à l'effet "générosité de la classe". Si c'est le cas, vous pourriez essayer d'estimer l'effet de générosité pour chaque cohorte - mais vous risquez d'être confus. De plus, il y a un Catch 22. Je serais très prudent d'appliquer de grandes «corrections» aux notes observées. Mais si les corrections suggérées sont petites, il est plausible qu'elles soient dues à des différences systématiques dans la capacité de tâche différentielle entre les cohortes, et non à la générosité du gradeur du tout.
Silverfish

2

Un modèle très simple:

Laisser s1,jejes2,jeUNE1,,UNEp

Chaque cohorte est biaisée par la force de ses élèves et la facilité du correcteur. En supposant qu'il s'agit d'un effet additif, nous en reculons de la manière suivante: nous soustraireons le score moyen de la cohorte au premier test, et ajouterons le score moyen de la cohorte au deuxième test.

s1

jp,jeUNEj,s1,je=s1,je-1|UNEj|jeUNEj(s1,je-s2,je)

s

je,sje=αs1,je+(1-α)s2,je

L'inconvénient est qu'un étudiant individuel pourrait être pénalisé si les personnes de sa cohorte se retrouvaient malchanceuses au deuxième test. Mais toute technique statistique va entraîner cet inconvénient potentiellement injuste.


3
Comme pour toute autre proposition, celle-ci souffrira de l'injustice inhérente de ne pas pouvoir distinguer l'effet de gradation de l'effet de groupe. Il n'y a tout simplement pas moyen de contourner cela. Au moins, votre procédure est un peu plus transparente que certaines autres qui ont été proposées, en rendant évident son caractère arbitraire (dans le choix deα).
whuber

1
Non - les cohortes ne sont pas sélectionnées au hasard.
Scortchi - Réintégrer Monica

1
... qui, comme le répète @whuber, est confondu avec toute tendance inhérente de la cohorte (en raison de l'âge ou autre) à faire relativement mieux sur un type de test que sur un autre.
Scortchi - Réintégrer Monica

2
Vous ne pouvez pas éliminer la confusion en prenant des cohortes plus grandes! Au mieux, vous pouvez arriver à des estimations de plus en plus précises de valeurs non interprétables.
whuber

3
Raisonnable peut-être: mais c'est impossible à tester étant donné les informations dont dispose le PO. La validité de votre réponse repose sur la vérité de cette supposition implicite. Pire encore, sa négation (qui bien sûr est également non testable) est également tout à fait raisonnable: parce que les cohortes sont auto-sélectionnées, elles peuvent être composées de personnes qui fonctionnent de manière commune sur différents instruments d'évaluation, ce qui suggère qu'il est en fait probable que le succès différentiel sera due en partie à la cohorte et seulement en partie à la variabilité entre les classeurs.
whuber

1

You can't. At least, not without collecting additional data. To see why, read @whuber's numerous upvoted comments throughout this thread.


0

Edit

The problem solved in this answer is that of finding graders who give less points to the students they dislike.

Original post

Mon approche, qui je pense est facile à mettre en œuvre, serait la suivante:

Laisser μk,je désigner l'élève de classe k, appartenant à la cohorte je obtenu sur la tâche 1. Soit yk,je indiquer la note pour la deuxième affectation.

1

Supposons le modèle

yk,i=μk,i+α+τek,i and estimate α over all students. That is, α is estimated without regard to i. It is possible that α is zero but students may change their performance for the final exam giving an overall increase/decrease.

2

Let Gi dénoter la générosité du correcteur en nombre de cohorte je. Puis formezy~k,je et assumer le modèle

yk,je-μk,je-α=y~k,je=gje+σjee~k,je

Et faire 11 estimations individuelles de g et σ

3

Maintenant, une observation inhabituelle est telle que la quantité

T=|y~-gjeσje|est large. Sélectionnez la plus grande de ces quantités pour chaque cohorte et étudiez-les.

Remarque

Tout esont supposés être gaussiens. Les notes ne sont pas normalement distribuées, donc des directives sur la tailleT sont difficiles à donner.

R-code

Vous trouverez ci-dessous le code dans R. Notez que dans votre cas, mu et y seront donnés, de sorte que les lignes générées lorsqu'elles sont affectées de numéros normaux doivent être ignorées. Je les inclue pour pouvoir évaluer le script sans données.

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]

4
Vous ne semblez pas avoir répondu à la question: vous ne terminez qu'avec une recommandation d'enquêter sur des «observations inhabituelles». Comment cela résout-il le problème?
whuber

En relisant la question, je me suis peut-être trop concentrée sur la partie "individuelle". Le problème résolu dans cette réponse est plutôt celui de trouver des correcteurs qui accordent moins de points aux élèves qu'ils n'aiment pas. La question d'origine est impossible (!) À résoudre. Comme cela a déjà été suggéré, il est très probable que les étudiants collaborent ou présentent une forte corrélation au sein de chaque cohorte.
Hunaphu

0

Reformulation du problème: Comment aborder au mieux la fixation d'une note en deux parties à un examen avec les conditions exigeant que la deuxième partie soit exposée à une plus grande incertitude en raison de la gamme d'évaluations qualitatives des marqueurs délégués.

Où: Maître testeur = personne responsable de l'examen Testeur délégué = personne (1 sur 11) assignée à la note # 2 de l'examen Étudiant = le gars qui s'amuse à passer un examen

Les objectifs comprennent: A) Les étudiants reçoivent une note qui reflète leur travail B) Gérer l'incertitude de la deuxième partie pour s'aligner avec l'intention du maître testeur

Approche suggérée (réponse): 1. Master Tester sélectionne au hasard un échantillon représentatif d'examens, marque la partie # 2 et développe la corrélation avec la partie # 1 2. Utilise la corrélation pour évaluer toutes les données des marqueurs délégués (Partie # 1 vs score n ° 2) 3. Lorsque la corrélation est significativement différente de celle du Master Tester - importance d'être acceptable pour le Master Tester - examiner l'examen en tant que Master Tester pour réaffecter le résultat.

Cette approche garantit que le testeur principal est responsable de la corrélation et de la signification acceptable. La corrélation pourrait être aussi simple que le score pour la partie # 1 vs # 2 ou les scores relatifs pour les questions du test # 1 vs # 2.

Le Master Tester sera également en mesure de définir une qualité de résultat pour la partie # 2 basée sur le "caoutchouteux" de la corrélation.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.