Est-il possible de faire un test de signification basé uniquement sur les scores de précision / rappel / F1?
Par exemple, si vous rencontrez 2 systèmes dans un document pour lesquels seuls P / R / F1 sont rapportés (sur le même ensemble de données, etc.), pouvez-vous alors effectuer un test de signification statistique? Si oui, comment cela se fait-il?