Comment déterminer équitablement les gagnants d'une expo-sciences régionale?

J'ai besoin d'aide pour trouver la bonne façon de calculer les gagnants à notre expo-sciences. Je ne veux pas que mon ignorance des statistiques et des mathématiques empêche les enfants de gagner. (de nombreux avantages de bourses et d'avancement sont en jeu). Merci d'avance pour votre aide.

Tout d'abord, un petit aperçu de la façon dont nous avons mis en place les choses:

Notre salon compte généralement environ 600 projets étudiants. Ces projets sont réalisés et présentés par des étudiants individuels ou une équipe d'étudiants. Une équipe peut être composée de 2 ou 3 enfants.

Les élèves sont divisés en deux divisions: élémentaire (6e à 8e année) et secondaire (9e à 12e année). Chaque division a différentes catégories: 9 catégories pour les projets élémentaires et 17 catégories pour les projets de la division secondaire.

Des prix sont décernés pour les première, deuxième et troisième places pour chaque catégorie dans chaque division. Des distinctions honorifiques sont également décernées pour des stages au-delà de la troisième place.

Pour chaque projet, nous affectons entre 4 et 6 juges. Nous effectuons nos missions en fonction des qualifications des juges, de leur préférence de catégorie et de leur expérience de juge passée. (les plus expérimentés sont affectés aux projets de la division senior).

Comment les juges notent un projet:

Pour chaque projet, 5 critères sont attribués à des points. Chaque critère peut être attribué entre 1 et 20 points. Les critères généraux sont:

Objectif global + hypothèse + utilisation des ressources ( 1..20 )
Conception + procédures ( 1..20 )
Collecte de données + résultats ( 1..20 )
Discussion + conclusion ( 1..20 )
Entretien ( 1..20 )

Pour les projets d'équipe, un sixième critère est évalué, appelé «déduction d'équipe», où un juge peut déduire des points ( jusqu'à 15 ) pour les coéquipiers qui n'ont pas participé ou qui ne se sont pas présentés.

Déduction d'équipe ( 0 ..- 15 )

Ainsi, un juge peut marquer chaque projet entre 5 et 100 points. Si le projet est un projet d'équipe, le score peut être réduit de 15 points.

Données brutes:

En quelques heures, nous collectons jusqu'à 3 600 partitions auprès des juges. Ces scores sont entrés dans une base de données où je peux faire toutes sortes de tri, de moyenne, de calculs d'écart type, etc. Je ne sais pas exactement ce que je dois faire avec ces scores bruts. En ce moment, je fais une moyenne simple pour chaque projet, mais je crains de ne pas tenir compte des préjugés des juges, des déductions d'équipe ou d'un certain nombre d'autres choses que je ne considère pas.

Résultat désiré:

En fin de compte, j'aimerais traiter les scores afin de pouvoir attribuer des projets de première, deuxième et troisième places pour chaque catégorie, puis des distinctions honorifiques pour les places suivantes. Je voudrais être sûr que les positions ont été calculées correctement et que les enfants qui gagnent méritent la reconnaissance (et les prix).

Merci beaucoup d'avoir lu ma longue question et d'avoir aidé à comprendre cela. Je serai ravi de répondre à toutes vos questions complémentaires.

data-transformation standard-deviation rating

— Mike Davie
source

Question intéressante et difficile et vous avez mis le doigt sur certains des problèmes clés. Combien de juges au total, donc combien de projets chaque juge jugerait-il? (une certaine idée de la plage ainsi que de la moyenne serait bonne). De plus, les 26 catégories s'excluent-elles mutuellement? J'ai un pressentiment, la meilleure réponse peut être simplement de faire la moyenne pour chaque projet, mais il pourrait être possible de s'ajuster pour les juges. Je vais lire les réponses avec intérêt!

— Peter Ellis

Merci pour votre intérêt initial. J'ai ajouté plus d'informations à la réponse ci-dessous. Si vous avez des idées, j'apprécierais votre aide.

— Mike Davie

Je pense que "réponse" est peut-être une étiquette trop généreuse pour mes réflexions ici. J'adore l'analyse exploratoire des données et je suis un grand fan de boxplot, donc cela va se refléter dans mes commentaires.

Salut, c'est beaucoup de scores. :) Il semble que vous ayez au moins 78 projets sur 600 dans le top 3 ( [9+17]x3) plus les mentions honorables. Normalement, je dirais de prélever des échantillons du haut et du milieu de chaque catégorie pour effectuer un audit de la notation, mais ce serait très onéreux dans votre cas en raison des chiffres que vous avez - et c'est juste que vous finalisez la notation. :)

J'espère que vous pourriez avoir un package de statistiques à votre disposition, car j'ai quelques suggestions que vous pourriez utiliser ci-dessous.

Avez-vous regardé la répartition des scores dans chaque catégorie? Les 3, 5 ou 8 meilleurs projets sont-ils très proches des scores? Cela suggère que la qualité des projets est très similaire et peu importe ce que vous faites, il y aura probablement au moins une perception d'arbitraire autour des notes finales.

Je ne sais pas combien de projets chaque juge marque. En supposant qu'ils obtiennent un nombre raisonnable (disons> 10, bien que le plus élevé soit le mieux ici), pour chaque juge, vous pouvez calculer la médiane et l'intervalle interquartile du score total attribué à chaque projet qu'ils évaluent (vous avez tellement d'attributs, ce n'est probablement pas mérite d’être examiné individuellement). Des juges semblent-ils attribuer des scores particulièrement élevés ou des scores particulièrement faibles? Est-ce que certains juges semblent marquer systématiquement au milieu, donc ils donnent peut-être 10s, cela peut être montré par une plage interquartile relativement petite et une médiane de score total autour du milieu de la plage de valeurs possibles.

Pour les projets d'équipe, vous pouvez comparer leur classement sur la base des notes totales à leur classement une fois la déduction d'équipe appliquée. Les déductions d'équipe affectent-elles les équipes qui seraient autrement dans le top 3?

Ce ne sont que des suggestions pour vous aider à démarrer. Je pense que visualiser les données dans ce sens vous donnerait de bons indicateurs pour savoir si les classements semblent justes.

Mise à jour: c'est un problème intéressant et difficile que vous avez. Il semble que chaque juge n'évalue pas suffisamment de projets pour que nous puissions trouver un facteur de pondération pour chaque juge (pour tenir compte des préjugés des juges), car nous ne disposons pas de suffisamment de données pour pouvoir mesurer les inter -la fiabilité des évaluateurs entre les juges, il n'y a tout simplement pas assez de chevauchement pour que les juges marquent sur les mêmes projets pour ce faire. Avez-vous examiné la fourchette de notes pour les quelques projets les plus performants - y avait-il des différences claires entre eux et les projets moins bien notés (limites naturelles?), À quel point les notes des projets les plus performants étaient-elles proches?

Par curiosité, les juges ont-ils reçu des critères de notation, ils ont donc eu peu de flexibilité dans la façon de donner des notes sur chaque critère (par exemple, donner 1 point pour fournir une hypothèse nulle, donner 1 point pour fournir une ou plusieurs hypothèses alternatives ...) ou Étaient-ils simplement au courant du nombre total de points qu'ils pouvaient attribuer et le reste était laissé à eux? S'ils avaient un guide de notation, je serais plus confiant que les scores étaient raisonnablement précis.

— Michelle
source

Moi aussi, je serais curieux de connaître la répartition des scores - y a-t-il clairement des "meilleurs scores", ou y a-t-il un bloc et qui sort par le dessus est un peu ... opaque en termes de processus. Comme le processus d'admission au collège, ces enfants connaîtront plus tard :)

— Fomite

Merci Michelle pour vos pensées. J'apprécie vraiment que vous preniez le temps. Pour répondre à vos questions, les juges ne jugent qu'un petit nombre de projets. Nous avons des minimums pour chaque division: 4 fois pour l'élémentaire et 5 ou 6 fois pour le secondaire (5 fois pour les lycéens et 6 fois pour les seniors).

— Mike Davie

Je dois clarifier ce qui précède. Les notes minimales sont par projet, pas le nombre de fois que les juges noteront les projets pendant la foire. Un juge typique jugera entre 8 et 15 projets pendant la foire. Ce nombre dépend de la disponibilité des juges, de leurs qualifications, de leur volonté d'aider, etc.

— Mike Davie

Bonne réponse Michelle. Quelques idées de moi: 1) Donner définitivement aux juges une sorte de rubrique pour essayer d'encourager des normes communes; 2) essayez d'avoir le même nombre de juges par projet si possible (car sinon, les projets avec moins de juges auront une variance plus élevée et donc plus de chances d'atteindre le sommet - ou le bas) et 3) je pense que vous devrez utilisez simplement une moyenne, mais si vous aviez l'expertise et le logiciel, vous pourriez adapter un modèle d'effets mixtes avec juge comme un effet aléatoire et voir si cela change le résultat. Et si c'est le cas? Probablement encore utiliser la moyenne ....

— Peter Ellis

Merci encore pour la contribution de tout le monde. Après avoir laissé cette idée résonner pendant un moment, j'ai décidé de voir comment les projets sont notés au niveau international (une étape de compétition au-dessus de notre salon). La foire internationale s'appelle ISEF. Nous envoyons chaque année nos 5 meilleurs étudiants à l'ISEF.

— Mike Davie