J'ai un ensemble de données de plus de 11 000 éléments distincts, chacun étant classé sur une échelle nominale par au moins 3 évaluateurs différents sur Mechanical Turk d' Amazon .
88 évaluateurs différents ont rendu des jugements pour la tâche, et aucun évaluateur n'a rendu plus de 800 jugements. La plupart ont fourni beaucoup moins que cela.
Ma question est la suivante:
Je voudrais calculer une certaine mesure de la fiabilité inter-évaluateur pour les notes, quelque chose de mieux qu'un simple examen du consensus. Je crois cependant que Fleiss Kappa, qui est la mesure que je connais le mieux, nécessiterait un groupe cohérent de évaluateurs pour l'ensemble des éléments, et je ne peux donc pas utiliser Fleiss Kappa pour vérifier le TRI avec mes données. Est-ce correct? Y a-t-il une autre méthode que je pourrais utiliser?
Tout conseil serait très apprécié!