Comment interpréter les valeurs de mesure F?


41

J'aimerais savoir comment interpréter une différence de valeurs de f-mesures. Je sais que la f-mesure est une moyenne équilibrée entre précision et rappel, mais je m'interroge sur la signification pratique d'une différence entre les F-mesures.

Par exemple, si un classificateur C1 a une précision de 0,4 et un autre classificateur C2 une précision de 0,8, alors nous pouvons dire que C2 a correctement classé le double d'exemples de test par rapport à C1. Cependant, si un classificateur C1 a une F-mesure de 0,4 pour une certaine classe et un autre classificateur C2 une F-mesure de 0,8, que pouvons-nous dire à propos de la différence de performance entre les 2 classificateurs? Peut-on dire que C2 a classé X plus d'instances correctement que C1?


2
Je ne suis pas sûr que vous puissiez en dire beaucoup puisque la mesure F est à la fois fonction de la précision et du rappel: en.wikipedia.org/wiki/F1_score . Vous pouvez cependant faire le calcul et maintenir une constante (précision ou rappel) et dire quelque chose à propos de l'autre.
Nick

Réponses:


41

Je ne peux pas penser à un sens intuitif de la mesure F, parce que c'est simplement une métrique combinée. Quoi de plus intuitif que F-mesure, bien sûr, c'est la précision et le rappel.

Mais en utilisant deux valeurs, il est souvent impossible de déterminer si un algorithme est supérieur à un autre. Par exemple, si un algorithme a une précision plus élevée mais un rappel plus faible que l’autre, comment savoir quel algorithme est le meilleur?

Si vous avez un objectif spécifique dans votre esprit, comme «La précision est le roi. Je me fiche de la mémoire », alors il n'y a pas de problème. Une précision plus élevée est meilleure. Mais si vous n'avez pas un objectif aussi ambitieux, vous voudrez une métrique combinée. C'est F-mesure. En l'utilisant, vous comparerez certaines de précision et d'autres de rappel.

La courbe ROC est souvent dessinée en indiquant la F-mesure. Vous pouvez trouver cet article intéressant car il contient des explications sur plusieurs mesures, dont les courbes ROC: http://binf.gmu.edu/mmasso/ROC101.pdf


23

L'importance du score F1 est différente en fonction du scénario. Supposons que la variable cible est une étiquette binaire.

  • Classe équilibrée: dans cette situation, le score F1 peut effectivement être ignoré, le taux de mauvaise classification est la clé.
  • Classe non équilibrée, mais les deux classes sont importantes: si la distribution de classe est très asymétrique (telle que 80:20 ou 90:10), un classificateur peut obtenir un faible taux de classification erronée simplement en choisissant la classe majoritaire. Dans une telle situation, je choisirais le classificateur qui obtient des scores F1 élevés dans les deux classes, ainsi qu'un faible taux de classification erronée. Un classificateur qui obtient des scores F1 faibles devrait être négligé.
  • Classe non équilibrée, mais une classe est plus importante que l'autre. Par exemple, dans la détection de fraude, il est plus important de qualifier correctement une instance comme frauduleuse, plutôt que de qualifier la non-frauduleuse. Dans ce cas, je choisirais le classificateur qui a un bon score F1 uniquement sur la classe importante . Rappelons que le score F1 est disponible par classe.

9

F-measure a une signification intuitive. Il vous indique la précision de votre classificateur (combien d'instances il classifie correctement), ainsi que sa robustesse (il ne manque pas un nombre important d'instances).

Avec une précision élevée mais un faible rappel, votre classificateur est extrêmement précis, mais il manque un nombre important d'instances difficiles à classer. Ce n'est pas très utile.

Regardez cet histogramme. entrez la description de l'image iciIgnorer son but initial.

Vers la droite, vous obtenez une haute précision, mais un faible rappel. Si je ne sélectionne que des instances dont le score est supérieur à 0,9, mes instances classifiées seront extrêmement précises, mais j'aurai manqué un nombre important d'instances. Les expériences indiquent que la zone idéale se situe autour de 0,76, où la F-mesure est de 0,87.


5

La mesure F est la moyenne harmonique de votre précision et de votre rappel. Dans la plupart des situations, vous devez faire un compromis entre précision et rappel. Si vous optimisez votre classificateur pour augmenter l'un et défavoriser l'autre, la moyenne des harmoniques diminue rapidement. Il est toutefois préférable que précision et rappel soient égaux.

Avec des mesures F de 0.4 et 0.8 pour vos classificateurs, vous pouvez vous attendre à ce que celles-ci correspondent aux valeurs maximales atteintes en comparant précision et rappel.

Pour référence visuelle, jetez un oeil à cette figure de Wikipedia :

entrez la description de l'image ici

La mesure F est H , A et B sont rappel et précision. Vous pouvez augmenter l'un, mais l'autre diminue.


La visualisation "Crossed Ladders" est un peu plus simple. Pour moi, l'égalité entre A et B est plus intuitive, ce qui rend le plus grand H plus intuitif.
Coruscate5

3

La formule de la mesure F (F1, avec beta = 1) est la même que la formule donnant la résistance équivalente composée de deux résistances mises en parallèle en physique (en oubliant le facteur 2).

Cela pourrait vous donner une interprétation possible et vous pouvez penser à la fois aux résistances électroniques et thermiques. Cette analogie définirait la mesure F comme la résistance équivalente formée par la sensibilité et la précision placées en parallèle.

Pour la mesure F, le maximum possible est 1, et vous perdez de la résistance dès qu'un sur deux la perd également (c'est-à-dire, prenez une valeur inférieure à 1). Si vous voulez mieux comprendre cette quantité et sa dynamique, réfléchissez au phénomène physique. Par exemple, il apparaît que la mesure F <= max (sensibilité, précision).


3

Fβ1/β2

P=TPTP+FP
R=TPTP+FN
α
α1RR+1PP.
αFββ2

1

Fβ=1/((β2/(β2+1))1/r+(1/(β2+1))1/p)
β2<1pFβ

0

La signification intuitive la plus proche du score f1 est perçue comme la moyenne du rappel et de la précision. Éclaircissons-le pour vous:

Dans une tâche de classification, vous envisagez peut-être de créer un classificateur avec une précision élevée ET un rappel. Par exemple, un classificateur qui indique si une personne est honnête ou non.

Par précision, vous êtes généralement en mesure de dire avec précision le nombre de personnes honnêtes dans un groupe donné. Dans ce cas, lorsque vous vous souciez de la haute précision, vous supposez que vous pouvez classifier une personne menteuse comme une personne honnête mais pas souvent. En d'autres termes, vous essayez ici d'identifier le menteur comme un groupe honnête.

Cependant, pour rappel, vous serez vraiment inquiet si vous pensez qu'une personne menteuse est honnête. Pour vous, ce sera une grande perte et une grosse erreur et vous ne voulez plus recommencer. En outre, vous pouvez classer une personne honnête comme menteuse, mais votre modèle ne devrait jamais (ou surtout ne pas le faire) prétendre qu'une personne menteuse est honnête. En d'autres termes, vous vous concentrez ici sur une classe spécifique et vous essayez de ne pas vous tromper.

À présent, prenons le cas où vous souhaitez que votre modèle (1) identifie avec précision un honnête menteur (précision) (2) identifie chaque personne des deux classes (rappel). Ce qui signifie que vous sélectionnerez le modèle qui fonctionnera bien avec les deux métriques.

Votre décision de sélection de modèle tentera ensuite d'évaluer chaque modèle en fonction de la moyenne des deux métriques. F-Score est le meilleur qui puisse décrire cela. Regardons la formule:

Rappel: p = tp / (tp + fp)

Rappel: r = tp / (tp + fn)

F-score: fscore = 2 / (1 / r + 1 / p)

Comme vous le voyez, plus le rappel ET la précision sont élevés, plus le F-score est élevé.


0

Sachant que le score F1 est une moyenne harmonique de précision et de rappel, vous trouverez ci-dessous un bref résumé à leur sujet.

Je dirais que Recall concerne davantage les faux négatifs. Par exemple, un rappel plus élevé signifie qu'il y a moins de FAUX NÉGATIFS .

Recall=tptp+fn

Autant que signifie moins FN ou zéro FN, la prédiction de votre modèle est vraiment bonne.

Precision=tptp+fp

Idem ici, moins ou zéro faux positif signifie que la prédiction du modèle est vraiment bonne.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.