Pourquoi tous les tests ne sont-ils pas notés via l'analyse des éléments / la théorie de la réponse?


8

Y a-t-il une raison statistique pour laquelle la théorie de l'analyse / réponse des éléments n'est pas plus largement appliquée? Par exemple, si un enseignant donne un test à choix multiple de 25 questions et constate que 10 questions ont été répondues correctement par tout le monde, 10 questions ont été répondues par une fraction très faible (disons 10%) et les 5 autres ont été répondues par environ 50% des personnes. . N'est-il pas logique de repondérer les scores afin que les questions difficiles reçoivent plus de poids?

Et pourtant, dans le monde réel, les questions ont presque toujours la même pondération. Pourquoi?

Le lien ci-dessous discute des indices de discrimination et d'autres mesures des difficultés pour choisir quelles questions sont les meilleures: http://fcit.usf.edu/assessment/selected/responsec.html

Il semble cependant que la méthode de calcul de l'indice de discrimination des questions ne soit utilisée que de manière prospective (par exemple, si une question ne fait pas une bonne discrimination, jetez-la). Pourquoi les tests ne sont-ils pas repondérés pour la population actuelle?

Réponses:


7

(Vous avez demandé s'il y avait une raison statistique: j'en doute, mais j'imagine d'autres raisons.) Y aurait-il des cris de "déplacement du poteau"? Les étudiants aiment généralement savoir, lors d'un test, combien vaut chaque élément. Ils pourraient être justifiés de se plaindre en voyant, par exemple, que certaines de leurs réponses travaillées ne finissaient pas par compter beaucoup.

De nombreux enseignants et professeurs utilisent des critères subjectifs non systématiques pour noter les tests. Mais ceux qui utilisent des systèmes hésitent probablement à ouvrir ces systèmes à des critiques spécifiques - ce qu'ils peuvent largement éviter s'ils se cachent derrière des approches plus subjectives. Cela pourrait expliquer pourquoi l'analyse des éléments et l'IRT ne sont pas utilisés plus largement qu'ils ne le sont.


1
+1, je m'attends à ce que de nombreux enseignants et professeurs ne connaissent pas non plus l'IRT.
gung - Rétablir Monica

Absolument! Une autre raison non statistique. Je trouve que la formation des enseignants dans ce pays est telle que beaucoup de ceux qui enseignent reçoivent peu ou pas de formation en évaluation. Et puis il y a des chercheurs et des concepteurs de tests formés à l'évaluation qui ont peu ou pas de formation aux méthodes d'enseignement.
rolando2

1
@ rolando2 - J'ai honte en tant qu'économiste de ne pas avoir pensé à des incitations ex-ante ou pendant le test. Si les candidats ont affaire à une cible en mouvement et ne savent pas comment dépenser rationnellement leur temps et leurs efforts pour répondre à chaque question, cela pourrait probablement avoir des effets vraiment pervers!
d_a_c321

Je vois comment cela pourrait les mécontenter, mais à quel genre d'effets "pervers" pensez-vous?
rolando2

6

Un premier argument concerne la transparence. @ rolando2 a déjà fait valoir ce point. Les étudiants veulent savoir ex ante combien vaut chaque article.

Un deuxième argument est que les poids ne reflètent pas seulement le degré de difficulté d'une question, mais aussi le degré d'importance que l'instructeur attache à une question. En effet, l'objectif d'un examen est de tester et certifier des connaissances et des compétences. En tant que tel, les poids attribués aux différentes questions et éléments doivent être fixés au préalable par l'enseignant. Il ne faut pas oublier que "tous les modèles sont faux, et seuls certains sont utiles". Dans ce cas, on peut avoir des doutes sur l'utilité.

Ceci étant dit, je pense qu'une analyse statistique (plus ou moins fantaisiste) pourrait venir ex-post, pour l'analyse des résultats. Là, il peut fournir des informations intéressantes. Maintenant, si cela est fait et dans quelle mesure cela dépend, cela dépend certainement des compétences statistiques de l'enseignant.


2
Absolument! En tant qu'instructeur, ce que je recherche n'est pas un classement relatif des étudiants - mais plutôt une mesure absolue de compréhension et de compétences. Je serais parfaitement arrivé (ravi, même), s'il s'avérait que tout le monde dans la classe était mesuré comme ayant une compréhension à 100% du sujet que j'enseignais. Ainsi, les pondérations sur les questions sont choisies pour refléter leur importance et le poids qu'elles devraient avoir dans une évaluation globale de la compréhension du sujet.
DW

2

Je voulais apporter une clarification concernant la question initiale. Dans la théorie de la réponse de l'item, la discrimination (c'est-à-dire la pente de l'item ou la charge factorielle) n'est pas indicative de difficulté. L'utilisation d'un modèle qui permet de faire varier la discrimination pour chaque élément les pondère effectivement en fonction de leur corrélation estimée avec la variable latente, et non en fonction de leur difficulté.

En d'autres termes, un élément plus difficile pourrait être pondéré s'il est estimé être assez non corrélé avec la dimension d'intérêt et vice versa, un élément plus facile pourrait être pondéré s'il est estimé être fortement corrélé.

Je suis d'accord avec les réponses précédentes qui soulignent (a) le manque de connaissance des méthodes de réponse aux items parmi les praticiens, (b) le fait que l'utilisation de ces modèles nécessite une certaine expertise technique même si l'on est conscient de leurs avantages (en particulier la capacité d'évaluer le ajustement du modèle de mesure), (c) les attentes de l'élève comme indiqué par @ rolando2, et enfin (d) les considérations théoriques que les instructeurs peuvent avoir pour pondérer différemment différents éléments. Cependant, je voulais mentionner que:

  1. Tous les modèles théoriques de réponse aux items ne permettent pas de faire varier le paramètre de discrimination, où le modèle de Rasch est probablement l'exemple le plus connu d'un modèle où les discriminations entre les items sont maintenues constantes. Dans la famille de modèles Rasch, le score de somme est une statistique suffisante pour le score de réponse de l'item, par conséquent, il n'y aura pas de différence dans l'ordre des répondants, et les seules différences pratiques seront appréciées si les «distances» entre le score les groupes sont pris en considération.

  2. Il existe des chercheurs qui défendent l'utilisation de la théorie des tests classiques (qui repose sur l'utilisation traditionnelle des scores de somme ou de la moyenne correcte) pour des raisons à la fois théoriques et empiriques. L'argument le plus utilisé est peut-être le fait que les scores générés dans le cadre de la théorie de la réponse aux items sont effectivement très similaires à ceux produits dans le cadre de la théorie classique des tests. Voir par exemple le travail de Xu & Stone (2011), Using IRT Trait Estimates Versus Summated Scores in Predicting Outcomes , Educational and Psychological Measurement , où ils rapportent des corrélations supérieures à 0,97 dans un large éventail de conditions.


(+1) Le premier paragraphe est très bien rédigé. À propos du point 2, j'ai en quelque sorte manqué cet article, alors merci pour le partage! Il convient de noter que des corrélations d'amplitude comparable seraient observées avec les modèles traditionnels d'analyse factorielle (où les charges imitent le paramètre de discrimination - dans le cadre du CTT, il s'agirait du coefficient de corrélation point-bisériale), à ​​condition que les difficultés des éléments soient uniformément réparties sur le trait latent ( c'est-à-dire pas d'articles trop difficiles ni trop faciles).
chl

1

Le score d'un élève ne devrait-il pas être basé sur ce qu'il sait et répond au test plutôt que sur ce que tout le monde dans la classe fait?

Si vous avez passé le même test 2 années différentes et que vous avez eu 2 étudiants (1 chacun) qui ont répondu correctement aux mêmes questions (sans tricher), est-il vraiment logique qu'ils obtiennent des notes différentes en fonction de la quantité des autres étudiants leur classe a étudié?

Et personnellement, je ne veux pas inciter les étudiants à saboter leurs camarades de classe au lieu d'apprendre eux-mêmes le matériel.

L'IRT peut donner un aperçu du test, mais je ne l'utiliserais pas pour pondérer activement les scores.

Quand je pense aux poids, je pense que quelqu'un devrait obtenir plus de points pour avoir posé une question difficile correctement, mais il devrait perdre plus de points pour avoir mal posé une question facile. Combinez-les et vous obtenez toujours une pondération égale. Ou j'essaie en fait de pondérer en fonction du temps ou des efforts nécessaires pour répondre à la question, afin que quelqu'un qui répond aux questions dans un ordre différent n'ait pas d'avantage sur un test chronométré.


Les grandes organisations de test qui utilisent l'IRT doivent également se soucier de la cohérence entre l'offre du test. La cohérence de la ou des variables latentes est importante mais peut être atteinte.
D Coetzee
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.