Savoir comment niveleuses diffèrent est bon, mais ne vous dit pas ce que pour compenser les grades à . Pour plus de simplicité, imaginez seulement deux niveleuses. Même si nous concluons que la niveleuse 1 est systématiquement 5 points plus généreuse que la niveleuse 2, cela ne vous dit pas quoi faire avec deux élèves qui ont chacun obtenu la note 70, un par la niveleuse 1 et un par la niveleuse 2. Disons-nous que la niveleuse 2 était un marqueur dur, et augmenter que 70 à 75, tout en gardant le 70 marqué par la niveleuse 1 inchangé? Ou supposons-nous que la niveleuse 1 était indulgente, abaissons son élève à 65 points et maintenons la niveleuse 2 70 inchangée? Comprenons-nous à mi-chemin entre - l'étendue de votre cas, sur la base d'une moyenne de 11 élèves? Ce sont les notes absolues qui comptent, donc connaître la générosité relative ne suffit pas.
Votre conclusion peut dépendre de la façon dont vous pensez que la note absolue finale doit être "objective". Un modèle mental serait de proposer à chaque élève une note «correcte» - celle qui serait attribuée par l'évaluateur principal s'il avait le temps de noter chaque article individuellement - à laquelle les notes observées sont des approximations. Dans ce modèle, les notes observées doivent être compensées pour leur classe, afin de les rapprocher le plus possible de leur "vraie" note non observée. Un autre modèle pourrait être que toutes les notes sont subjectives, et nous cherchons à transformer chaque note observée vers la note que nous prévoyons qu'elle aurait été attribuée si tous les correcteurs avaient considéré le même papier et avaient atteint une sorte de compromis ou de note moyenne pour cela. Je trouve le deuxième modèle moins convaincant comme solution même si l'admission de la subjectivité est plus réaliste. Dans un environnement éducatif, il y a généralement quelqu'un qui assume la responsabilité ultime de l'évaluation, pour s'assurer que les étudiants reçoivent "la note qu'ils méritent", mais ce rôle principal a essentiellement déchargé la responsabilité des mêmes élèves que nous connaissons déjà en désaccord marqué. A partir de là, je suppose qu'il y aest une note «correcte» que nous visons à estimer, mais il s'agit d'une proposition contestable et peut ne pas correspondre à votre situation.
Supposons que les élèves A, B, C et D, tous dans la même cohorte, «devraient» être notés respectivement 75, 80, 85 et 90, mais leur généreux correcteur note systématiquement 5 points de trop. Nous observons 80, 85, 90 et 95 et devrions soustraire 5, mais trouver le chiffre à soustraire est problématique. Cela ne peut pas être fait en comparant les résultats entre les cohortes, car nous nous attendons à ce que les cohortes varient en capacité moyenne. Une possibilité consiste à utiliser les résultats des tests à choix multiples pour prédire les bons scores lors de la deuxième affectation, puis à utiliser cette option pour évaluer la variation entre chaque classeur et les bonnes notes. Mais faire cette prédiction n'est pas anodin - si vous vous attendez à une moyenne et à un écart-type différents entre les deux évaluations, vous ne pouvez pas simplement supposer que les deuxièmes notes d'évaluation devraient correspondre à la première.
De plus, les élèves diffèrent dans leurs aptitudes relatives aux évaluations à choix multiples et aux évaluations écrites. Vous pourriez considérer cela comme une sorte d'effet aléatoire, formant une composante des notes «observées» et «vraies» de l'élève, mais non capturé par sa note «prédite». Si les cohortes diffèrent systématiquement et que les étudiants d'une cohorte ont tendance à être similaires, nous ne devrions pas nous attendre à ce que cet effet soit en moyenne nul pour chaque cohorte. Si les notes observées d'une cohorte sont en moyenne de +5 par rapport à celles prévues, il est impossiblepour déterminer si cela est dû à un correcteur généreux, à une cohorte particulièrement mieux adaptée à l'évaluation écrite qu'à choix multiple, ou à une combinaison des deux. Dans un cas extrême, la cohorte peut même avoir une aptitude plus faible lors de la deuxième évaluation, mais cela a été plus que compensé par un correcteur très généreux - ou vice versa. Vous ne pouvez pas le séparer. C'est confondu.
Je doute également de l'adéquation d'un modèle additif aussi simple pour vos données. Les correcteurs peuvent différer de l'évaluateur principal non seulement par le changement de lieu, mais aussi par la propagation - bien que comme les cohortes varient probablement en homogénéité, vous ne pouvez pas simplement vérifier la répartition des notes observées dans chaque cohorte pour le détecter. De plus, la majeure partie de la distribution a des scores élevés, assez proches du maximum théorique de 100. Je prévois que cela introduira une non-linéarité due à une compression proche du maximum - une niveleuse très généreuse peut donner des notes A, B, C et D comme 85, 90, 94, 97. C'est plus difficile à inverser que de simplement soustraire une constante. Pire, vous pourriez voir des «coupures» - une niveleuse extrêmement généreuse peut les classer comme 90, 95, 100, 100. Ceci est impossibleinversé, et les informations sur les performances relatives de C et D sont irrémédiablement perdues.
Vos classeurs se comportent très différemment. Êtes-vous sûr qu'ils ne diffèrent que par leur générosité globale, plutôt que par leur générosité dans les différentes composantes de l'évaluation? Cela pourrait valoir la peine d'être vérifié, car cela pourrait introduire diverses complications - par exemple, la note observée pour B peut être pire que celle de A, bien que B soit 5 points «meilleur», même si les notes attribuées par le correcteur pour chaque composant sont une fonction augmentant de façon monotone de l'évaluateur principal! Supposons que l'évaluation soit divisée entre Q1 (A devrait marquer 30/50, B 45/50) et Q2 (A devrait marquer 45/50, B 35/50). Imaginez que la niveleuse soit très clémente sur Q1 (notes observées: A 40/50, B 50/50) mais sévère sur Q2 (observée: A 42/50, 30/50), alors nous observons des totaux de 82 pour A et 80 pour B. Si vous devez tenir compte des scores des composants,
Il s'agit sans doute d'un commentaire étendu plutôt que d'une réponse, dans le sens où il ne propose pas de solution particulière dans les limites d'origine de votre problème. Mais si vos classeurs traitent déjà environ 55 papiers chacun, alors est-ce si mauvais pour eux d'avoir à en examiner cinq ou dix de plus à des fins d'étalonnage? Vous avez déjà une bonne idée des capacités des élèves, vous pouvez donc choisir un échantillon de documents dans toute la gamme des notes. Vous pouvez ensuite évaluer si vous devez compenser la générosité de la niveleuse sur l'ensemble du test ou dans chaque composant, et si vous devez le faire simplement en ajoutant / soustrayant une constante ou par quelque chose de plus sophistiqué comme l'interpolation (par exemple, si vous avez peur de ne pas linéarité proche de 100). Mais un mot d'avertissement sur l'interpolation: supposons que l'évaluateur principal marque cinq échantillons d'articles comme 70, 75, 80, 85 et 90, alors qu'une niveleuse les marque comme 80, 88, 84, 93 et 96, il y a donc un certain désaccord sur l'ordre. Vous voulez probablement mapper les notes observées de 96 à 100 sur l'intervalle 90 à 100, et les notes observées de 93 à 96 sur l'intervalle 85 à 90. Mais une certaine réflexion est nécessaire pour les notes inférieures. Peut-être que les notes observées de 84 à 93 devraient être mises en correspondance avec l'intervalle 75 à 85? Une alternative serait une régression (éventuellement polynomiale) pour obtenir une formule pour le "vrai grade prévu" à partir du "grade observé". Peut-être que les notes observées de 84 à 93 devraient être mises en correspondance avec l'intervalle 75 à 85? Une alternative serait une régression (éventuellement polynomiale) pour obtenir une formule pour le "vrai grade prévu" à partir du "grade observé". Peut-être que les notes observées de 84 à 93 devraient être mises en correspondance avec l'intervalle 75 à 85? Une alternative serait une régression (éventuellement polynomiale) pour obtenir une formule pour le "vrai grade prévu" à partir du "grade observé".