Test de signification basé sur la précision / rappel / F1

Est-il possible de faire un test de signification basé uniquement sur les scores de précision / rappel / F1?

Par exemple, si vous rencontrez 2 systèmes dans un document pour lesquels seuls P / R / F1 sont rapportés (sur le même ensemble de données, etc.), pouvez-vous alors effectuer un test de signification statistique? Si oui, comment cela se fait-il?

statistical-significance precision-recall

— Vam
source

Intuitivement, obtenir un P / R / F1 élevé sur un petit ensemble de données ou sur un ensemble de données très uniforme / prévisible est probablement plus facile que d'obtenir un P / R / F1 élevé sur des ensembles de données plus grands ou plus chaotiques. Par conséquent, une amélioration de P / R / F1 sur un ensemble de données plus grand et plus chaotique est plus significative.

Suite à cette intuition, vous auriez probablement besoin d'accéder à la sortie des méthodes "boîte noire" afin de mesurer la différence dans la distribution des résultats, tout en tenant compte de la taille et de la variété de cet ensemble. Les P / R / F1 seuls sont probablement trop peu d'informations.

Les tests de signification dans ce paramètre sont généralement effectués en formant une hypothèse nulle (les deux algorithmes produisent toujours la même sortie), puis en calculant la probabilité d'observer la différence de sortie que vous observez si les algorithmes étaient effectivement les mêmes. Si la probabilité est inférieure à 0,05 par exemple, vous rejetez l'hypothèse nulle et concluez que l'amélioration est significative.

Ce document a des discussions pertinentes: http://www.aclweb.org/anthology/C00-2137

— Pablo Mendes
source