Pourquoi la mesure F est-elle préférée pour les tâches de classification?

8

Pourquoi la mesure F est-elle généralement utilisée pour les tâches de classification (supervisées), alors que la mesure G (ou indice de Fowlkes – Mallows) est généralement utilisée pour les tâches de regroupement (non supervisées)?

La mesure F est la moyenne harmonique de la précision et du rappel .

La mesure G (ou indice de Fowlkes – Mallows) est la moyenne géométrique de la précision et du rappel .

Vous trouverez ci-dessous un graphique des différents moyens.

F1 (harmonique) $= 2\cdot\frac{precision\cdot recall}{precision + recall}$

Géométrique $= \sqrt{precision\cdot recall}$

Arithmétique $= \frac{precision + recall}{2}$

La raison pour laquelle je demande est que je dois décider quelle moyenne utiliser dans une tâche NLG, où j'ai mesuré BLEU et ROUGE (où BLEU est équivalent à la précision et ROUGE à rappeler). Comment dois-je calculer la moyenne de ces scores?

— Bruno Lubascher
source

Peut-être que c'est comme ça que la définition se passe!

— Aditya

1

@Aditya, vous avez raison, c'était juste une question mal formulée sur la définition. Je l'ai édité en reformulant quelque chose de plus concret.

— Bruno Lubascher

3

Le score Fı est préféré à la précision de la classification simple afin de contrer le problème des ensembles de données déséquilibrés; si la chose que vous recherchez ne se produit que rarement de toute façon, un classificateur naïf peut toujours dire non et semble très bien fonctionner! Une variante de Fı est Fß, où

Fß = (1 + ß²) × [(P × R) ÷ ((ß² × P) + R)]

Variez ß pour équilibrer précision et rappel. Quant à la raison pour laquelle F ou G, je pense que c'est empirique - vous ne dites pas si vous classez ou regroupez dans votre propre application?

— Gaius
source

1

Merci pour la réponse, mais je pense que vous avez mal compris ma question. Je ne veux pas comparer la F1 à la précision simple. , je veux plutôt comparer les moyennes Harmonique vs Géométrique vs Arithmétique . Je ne fais pas de classification ou de clustering traditionnel, j'ai une tâche NLG , qui est mesurée en BLEU et ROUGE qui pourrait être moyennée avec l'un des moyens, mais je ne sais pas lequel choisir.

— Bruno Lubascher

-1

Si la précision et le rappel sont similaires, F1 est une bonne mesure unique pour comparer différents modèles.

Court et doux :)

— FrancoSwiss
source

Je ne vois pas comment vous avez même tenté de répondre à ma question ...

— Bruno Lubascher