J'utilise le Kappa de Cohen pour calculer l'inter-accord entre deux juges.
Il est calculé comme suit:
où est la proportion d'accord et la probabilité d'accord par hasard.
Maintenant, pour l'ensemble de données suivant, j'obtiens les résultats attendus:
User A judgements:
- 1, true
- 2, false
User B judgements:
- 1, false
- 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333
On voit que les deux juges ne se sont pas très bien entendus. Cependant, dans le cas suivant où les deux juges évaluent un critère, kappa est évalué à zéro:
User A judgements:
- 1, false
User B judgements:
- 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0
Maintenant, je peux voir que l'accord par hasard est évidemment 1, ce qui conduit à kappa étant nul, mais cela compte-t-il comme un résultat fiable? Le problème est que normalement je n'ai pas plus de deux jugements par critère, donc ceux-ci ne seront jamais évalués à un kappa supérieur à 0, ce qui, je pense, n'est pas très représentatif.
Suis-je d'accord avec mes calculs? Puis-je utiliser une méthode différente pour calculer l'inter-accord?
Ici, nous pouvons voir que kappa fonctionne bien pour plusieurs jugements:
User A judgements:
- 1, false
- 2, true
- 3, false
- 4, false
- 5, true
User A judgements:
- 1, true
- 2, true
- 3, false
- 4, true
- 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996
information-retrieval
tag ici.