Tout d'abord, je trouve la «précision» parfois un peu trompeuse, car elle se réfère à des choses distinctes:
Le terme précision en généal pour évaluer des systèmes ou des méthodes (je suis chimiste analytique) fait référence au biais des prédictions, c'est-à-dire qu'il répond à la question de savoir comment les bonnes prédictions sont en moyenne.
Comme vous le savez, il existe de nombreuses mesures de performances différentes qui répondent à différents aspects des performances des classificateurs. Il se trouve que l'un d'eux est également appelé précision. Si votre article n'est pas destiné à un public de machine learning / classification, je vous recommande de clarifier cette distinction. Même pour cette signification plus précise de la précision, je serais très explicite sur ce que j'appelle la précision, car là encore, plusieurs façons de traiter le déséquilibre de classe peuvent se produire. En règle générale, le déséquilibre de classe est ignoré, ce qui conduit au calcul bien connu . Cependant, vous pouvez également utiliser la moyenne de sensibilité et de spécificité, ce qui revient à contrôler le déséquilibre de classe en pondérant votre moyenne.TP+TNall cases
Le score F est souvent introduit comme moyen harmonique de précision et de rappel (ou valeur prédictive positive et sensibilité). Pour votre question, je pense qu'il est utile de préciser cela un peu plus et de le simplifier:
F=2⋅precision⋅recallprecision+recall=2TPall PTPallTTPall P+TPallT=2TP2all P⋅allTTP⋅all Tall P⋅allT+TP⋅all Pall P⋅allT=2 TP2TP⋅all T+TP⋅all P=2 TPall T+all P
La dernière expression n'est pas une fraction de tout ce que je peux considérer comme un certain groupe de cas de test. En particulier, un chevauchement (important) entre les cas VRAI et POSITIF est attendu. Cela m'empêcherait d'exprimer un score F sous forme de pourcentage, car ce type implique une proportion de cas. En fait, je pense que je voudrais avertir le lecteur que le F-score n'a pas une telle interprétation.