J'utilise actuellement plusieurs classificateurs différents sur diverses entités extraites du texte, et j'utilise la précision / rappel comme résumé de la performance de chaque classificateur distinct dans un ensemble de données donné.
Je me demande s'il existe un moyen significatif de comparer les performances de ces classificateurs de manière similaire, mais qui prend également en compte le nombre total de chaque entité dans les données de test qui sont classées?
Actuellement, j'utilise la précision / le rappel comme mesure des performances, il pourrait donc y avoir quelque chose comme:
Precision Recall
Person classifier 65% 40%
Company classifier 98% 90%
Cheese classifier 10% 50%
Egg classifier 100% 100%
Cependant, l'ensemble de données sur lequel je les exécute peut contenir 100 000 personnes, 5 000 entreprises, 500 fromages et 1 œuf.
Y a-t-il donc une statistique récapitulative que je peux ajouter au tableau ci-dessus qui prend également en compte le nombre total de chaque article? Ou existe-t-il un moyen de mesurer le fait que, par exemple, 100% prec / rec sur le classificateur d'oeufs pourrait ne pas être significatif avec un seul élément de données?
Disons que nous avions des centaines de ces classificateurs, je suppose que je cherche un bon moyen de répondre à des questions telles que "Quels classificateurs sont sous-performants? Quels classificateurs manquent de données de test suffisantes pour dire s'ils sont sous-performants?".