Mesure des performances de différents classificateurs avec différentes tailles d'échantillons


12

J'utilise actuellement plusieurs classificateurs différents sur diverses entités extraites du texte, et j'utilise la précision / rappel comme résumé de la performance de chaque classificateur distinct dans un ensemble de données donné.

Je me demande s'il existe un moyen significatif de comparer les performances de ces classificateurs de manière similaire, mais qui prend également en compte le nombre total de chaque entité dans les données de test qui sont classées?

Actuellement, j'utilise la précision / le rappel comme mesure des performances, il pourrait donc y avoir quelque chose comme:

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

Cependant, l'ensemble de données sur lequel je les exécute peut contenir 100 000 personnes, 5 000 entreprises, 500 fromages et 1 œuf.

Y a-t-il donc une statistique récapitulative que je peux ajouter au tableau ci-dessus qui prend également en compte le nombre total de chaque article? Ou existe-t-il un moyen de mesurer le fait que, par exemple, 100% prec / rec sur le classificateur d'oeufs pourrait ne pas être significatif avec un seul élément de données?

Disons que nous avions des centaines de ces classificateurs, je suppose que je cherche un bon moyen de répondre à des questions telles que "Quels classificateurs sont sous-performants? Quels classificateurs manquent de données de test suffisantes pour dire s'ils sont sous-performants?".


Si vous avez différents classificateurs formés sur différents ensembles de données, comment pouvez-vous les comparer de manière significative? On pense aux pommes et aux oranges, à la craie et au fromage. De plus, si vous avez des classificateurs multiclasses, comment calculez-vous la précision et le rappel? Même savoir que N = 1 n'est pas nécessairement utile - s'il n'y a qu'un seul œuf dans le monde, votre classificateur d'œufs est très bien.
Bull

Ce sont des classificateurs différents formés sur les mêmes ensembles de données, par exemple, nous savons que nous avons un document qui concerne les pommes et les oranges, nous exécutons donc un classificateur de pommes dessus pour déterminer le type de pomme dont il parle, et un classificateur orange pour déterminer le type d'orange. ça parle de. Si nos documents sont à 99% sur les pommes, 1% sur les oranges et que les deux classificateurs ont le même prec / rec (somme des lignes / cols sur la matrice de confusion), y a-t-il des informations que nous pouvons présenter qui prennent en compte les différences de quantités de chacun ? (il se peut que non, il n'y en ait pas, ce qui est une réponse avec laquelle je serais heureux)
Dave Challis

Réponses:


5

Vous devez regarder l'intervalle de confiance de la statistique. Cela permet de mesurer le degré d'incertitude de la statistique, qui est largement fonction de la taille de l'échantillon.


2

À mon avis, il est difficile de comparer les performances quand il y a une si grande différence de taille. Sur ce lien, (veuillez le vérifier ici dans Wikipedia http://en.wikipedia.org/wiki/Effect_size ), vous pouvez voir différentes stratégies.

Celui que je propose est lié à la variance. Par exemple, considérez les performances du classificateur (100%) et du classificateur de personne (65%). L'erreur minimale que vous commettez avec l'ancien classificateur est de 100%. Cependant, l'erreur minimale que vous pouvez commettre avec ce dernier classificateur est 10e-5.

Donc, une façon de comparer le classificateur est d'avoir à l'esprit cette règle de trois ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics) où vous pouvez comparer les performances et sa variabilité.

Une autre possibilité est la mesure F qui est une combinaison de précision et de rappel et qui est en quelque sorte indépendante de la taille de l'effet.


2

Le nombre de données dans la classe est parfois appelé supportle classificateur. Il indique à quel point vous pouvez faire confiance à votre résultat, comme une valeur p vous permettrait de faire confiance ou de vous méfier d'un test.

Une approche que vous pouvez utiliser consiste à calculer plusieurs mesures de performance du classifieur, non seulement la précision et le rappel, mais aussi le vrai taux positif, le taux faux positif, la spécificité, la sensibilité, la probabilité positive, la probabilité négative, etc. et voir si elles sont cohérentes entre elles. . Si l'une des mesures atteint son maximum (100%) et que l'autre ne le fait pas, cela indique souvent, selon mon expérience, que quelque chose s'est mal passé (par exemple, mauvais support, classificateur trivial, classificateur biaisé, etc.). Voir ceci pour une liste des mesures de performance du classificateur.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.