Il y a deux parties: (a) sélectionner un graphique ( conception expérimentale ) pour déterminer quelles paires d'essais les étudiants évalueront dans le processus de notation par les pairs, et (b) classer tous les essais, en fonction des notes de leurs pairs, pour déterminer quel enseignant devrait se classer. Je vais suggérer quelques méthodes pour chacun.
Choisir un graphique
Énoncé du problème. La première étape consiste à générer un graphique. En d'autres termes, vous devez sélectionner les paires d'essais à montrer aux étudiants pendant l'exercice de notation par les pairs.
Solution suggérée. Pour cette tâche, je vous suggère de générer un graphe aléatoire g , sélectionné uniformément au hasard dans l'ensemble des 3 graphes (simples) réguliers.
Justification et détails. On sait qu'un d aléatoireré graphe -Regular est un bon expandeur. En fait, les graphiques réguliers ont un facteur d'expansion asymptotiquement optimal. De plus, comme le graphique est aléatoire, cela devrait éliminer le risque de biaiser le classement. En sélectionnant un graphique uniformément au hasard, vous vous assurez que votre approche est également équitable pour tous les élèves. Je soupçonne qu'un graphique à 3 intervalles uniformément aléatoire sera optimal pour vos besoins.
Cela soulève la question: comment sélectionner un graphique (simple) à 3 intervalles réguliers sur n sommets, uniformément au hasard?
Heureusement, il existe des algorithmes connus pour ce faire. Fondamentalement, vous procédez comme suit:
Créez points. Vous pouvez penser à cela comme 3 copies de chacun des n sommets. Générez, uniformément au hasard, une correspondance parfaite aléatoire sur ces 3 n points. (En d'autres termes, répétez la procédure suivante jusqu'à ce que les 3 n points soient associés: sélectionnez n'importe quel point non apparié et associez-le à un autre point choisi uniformément au hasard dans l'ensemble des points non appariés.)3nn3 n3 n
Pour chacun des deux points correspondant à la correspondance, tracez un bord entre les sommets correspondants (dont ils sont une copie). Cela vous donne un graphique sur sommets.n
Ensuite, testez si le graphique résultant est simple (c.-à-d. Qu'il n'a pas de boucles automatiques et pas d'arêtes répétées). Si ce n'est pas simple, jetez le graphique et revenez à l'étape 1. Si c'est simple, vous avez terminé; sortie ce graphique.
On sait que cette procédure génère une distribution uniforme sur l'ensemble des 3 graphes (simples) réguliers. De plus, il est connu qu'à l'étape 3, vous avez une probabilité constante d'accepter le graphique résultant, donc en moyenne l'algorithme fera O ( 1 ) essais - c'est donc assez efficace (par exemple, le temps d'exécution polynomial).
J'ai vu cette approche attribuée à Bollobas, Bender et Canfield. L'approche est également résumée brièvement sur Wikipédia . Vous pouvez également trouver une discussion sur ce billet de blog .
Techniquement parlant, cela nécessite que le nombre soit pair (sinon il n'y a pas de graphe 3-régulier sur n sommets). Cependant, cela est facile à gérer. Par exemple, si nnnn est impair, vous pouvez choisir au hasard un essai, le mettre de côté, générer un graphique aléatoire à 3 intervalles sur les essais restants, puis ajouter 3 autres bords de l'essai mis de côté à 3 autres essais choisis au hasard. (Cela signifie qu'il y aura 3 essais qui sont en fait notés 4 fois, mais cela ne devrait pas faire de mal.)
Classement de tous les essais
Énoncé du problème. OK, alors maintenant vous avez un graphique, et vous avez présenté ces paires d'essais (comme indiqué par les bords du graphique) aux élèves pour qu'ils les notent pendant l'exercice de notation par les pairs. Vous avez les résultats de chaque comparaison d'essais. Maintenant, votre tâche est d'inférer un classement linéaire sur tous les essais, pour vous aider à déterminer lesquels faire évaluer par l'enseignant.
Solution. Je vous ai suggéré d'utiliser le modèle Bradley-Terry . C'est une approche mathématique qui résout exactement ce problème. Il a été conçu pour classer les joueurs dans certains sports, sur la base des résultats des matchs entre certaines paires de joueurs. Il suppose que chaque joueur a une force (inconnue), qui peut être quantifiée comme un nombre réel, et la probabilité qu'Alice bat Bob est déterminée par une fonction lisse de la différence de leurs forces. Puis, compte tenu des records de gains / pertes par paire, il estime la force de chaque joueur.
Cela devrait être parfait pour vous. Vous pouvez traiter chaque essai comme un joueur. Chaque comparaison entre deux essais (pendant le processus de notation par les pairs) est comme le résultat d'une correspondance entre eux. Le modèle Bradley-Terry vous permettra de prendre toutes ces données et de déduire une force pour chaque essai, où des forces plus élevées correspondent à de meilleurs essais. Vous pouvez maintenant utiliser ces points forts pour classer tous les essais.
jej
Il existe d'autres façons d'inférer les notes ou les classements pour tous les essais, compte tenu des données dont vous disposez. Par exemple, la méthode Elo en est une autre. J'en résume plusieurs dans ma réponse à une question différente ; lisez cette réponse pour plus de détails.
Un autre commentaire: le modèle Bradley-Terry suppose que le résultat de chaque comparaison entre deux joueurs est une victoire ou une perte (c'est-à-dire un résultat binaire). Cependant, il semble que vous disposerez en fait de données plus détaillées: votre curseur donnera une estimation approximative de la façon dont le correcteur a évalué un essai par rapport à un autre. L'approche la plus simple serait de simplement mapper chaque curseur sur un résultat binaire. Cependant, si vous le voulez vraiment, vous pourrez peut-être utiliser toutes les données, en utilisant une analyse plus sophistiquée. Le modèle Bradley-Terry consiste à effectuer une régression logistique. Si vous généralisez cela pour utiliser le logit commandé , je parie que vous pourriez tirer parti des informations supplémentaires que vous avez de chaque curseur, étant donné que les résultats des curseurs ne sont pas binaires mais sont l'une des nombreuses possibilités.
Utilisation efficace de l'enseignant
Vous proposez à l'enseignant de noter manuellement les X% supérieurs et les X% inférieurs de tous les essais (en utilisant le classement déduit des résultats de la notation par les pairs). Cela pourrait fonctionner, mais je soupçonne que ce n'est pas l'utilisation la plus efficace du temps limité de l'enseignant. J'aimerais plutôt suggérer une autre approche.
Je suggère que l'enseignant note un sous-ensemble des essais, le sous-ensemble étant soigneusement sélectionné pour essayer de fournir le meilleur étalonnage possible pour tous les essais qui n'ont pas été notés par l'enseignant. Pour cela, je pense que cela pourrait aider si vous avez sélectionné un échantillon d'essais couvrant la gamme des réponses possibles (donc pour chaque essai, il y a un essai évalué par l'enseignant qui n'est pas trop loin). Pour cela, je peux penser à deux approches que vous pourriez envisager d'essayer:
nkkk
kré( eje, ej)ejeejSré( e , S) = mine′∈ Sré( e , e′)eSke1, e2, … , Ekei + 1ré( e , { e1, e2, … , Eje} )ee ∉ { e1, e2, … , Eje}kkk
Je soupçonne que l'une ou l'autre de ces approches pourrait fournir des scores plus précis que de demander au professeur de classer les X% supérieurs et les X% inférieurs des essais - car les meilleurs et les pires essais ne sont probablement pas représentatifs de la masse des essais au milieu.
ré( e1, e2) = ( s ( e1) - s ( e2) )2s ( e )ee1e2(en les traitant comme des chaînes de texte, en calculant la distance d'édition et en les divisant par la longueur de la plus grande des deux) et utilisez-les comme un autre facteur dans la fonction de distance. Vous pouvez également calculer des vecteurs de caractéristiques en utilisant un modèle de sac de mots sur les mots dans les essais, et utiliser la distance L2 entre ces vecteurs de caractéristiques (avec des caractéristiques normalisées à l'aide de tf-idf) comme un autre facteur de la fonction de distance. Vous pouvez utiliser une fonction de distance qui est une moyenne pondérée de la différence des forces (basée sur les estimations de Terry-Bradley), la distance d'édition normalisée et tout ce qui semble utile. Une telle fonction de distance plus sophistiquée pourrait aider à mieux aider l'algorithme de clustering à sélectionner les meilleursk