Pourquoi la somme de la précision et du rappel n'est-elle pas une mesure valable?

12

Quelle est la meilleure façon d'expliquer pourquoi n'est pas une bonne mesure, par exemple, par rapport à F1? $\text{Precision} + \text{Recall}$

precision-recall

— mat
source

Qu'est-ce que cela signifierait? Comment l'interpréteriez-vous? Que vous dirait-il réellement?

— Matthew Drury

1

Vous devez changer le titre en remplaçant "Precision + Recall" par "la somme de Precision and Recall" pour rendre plus clair ce que vous voulez.

— g3o2

@ g3o2 parlons-nous de grammaire ici, ou ai-je raté quelque chose de plus grand?

— mat

Pas vraiment, juste en notant qu'il peut également être lu Precision & Recall, en particulier lors de la lecture du titre uniquement.

— g3o2

18

Ce n'est pas que soit une mauvaise mesure en soi, c'est juste que, en soi, le nombre résultant ne représente rien de significatif. Vous êtes sur la bonne voie cependant ... ce que nous recherchons est une moyenne combinée des deux mesures de performance, car nous ne voulons pas avoir à choisir entre elles. $\text{Precision} + \text{Recall}$

Rappelons que la précision et le rappel sont définis comme:

Precision = \frac{True Positive}{Predicted Positive}

$\text{Precision} = \frac{\text{True Positive}}{\text{Predicted Positive}}$

Recall = \frac{True Positive}{Actual Positive}

$\text{Recall} = \frac{\text{True Positive}}{\text{Actual Positive}}$

Puisqu'ils ont tous les deux des dénominateurs différents, les additionner ensemble donne quelque chose comme ceci: ... ce qui n'est pas particulièrement utile.

\frac{True Positive (Predicted Positive + Actual Positive)}{Predicted Positive \times Actual Positive}

$\frac{\text{True Positive}\left(\text{Predicted Positive}+\text{Actual Positive}\right)}{\text{Predicted Positive}\times \text{Actual Positive}}$

Revenons à les ajouter ensemble, et apportons un petit plus: multipliez-les par sorte qu'ils soient le séjour dans l'échelle correcte,. Cela en prend la moyenne familière. $\frac{1}{2}$ $[0-1]$

\frac{1}{2} \times (\frac{True Positive}{Predicted Positive} + \frac{True Positive}{Actual Positive})

$\frac{1}{2} \times \left( \frac{\text{True Positive}}{\text{Predicted Positive}} + \frac{\text{True Positive}}{\text{Actual Positive}} \right)$

Donc, nous avons deux quantités, qui ont le même numérateur, mais des dénominateurs différents et nous aimerions en prendre la moyenne. Qu'est-ce qu'on fait? Eh bien, nous pourrions les retourner, prendre leur inverse. Ensuite, vous pouvez les ajouter ensemble. Ils sont donc "côté droit vers le haut", vous reprenez l'inverse.

Ce processus d'inversion, puis d'inversion à nouveau transforme une moyenne "régulière" en une moyenne harmonique. Il se trouve que la moyenne harmonique de précision et de rappel est la statistique F1. La moyenne harmonique est généralement utilisée au lieu de la moyenne arithmétique standard lorsqu'il s'agit de taux, comme nous le faisons ici.

En fin de compte, la statistique F1 n'est que la moyenne de précision et de rappel, et vous l'utilisez parce que vous ne voulez pas choisir l'un ou l'autre pour évaluer les performances du modèle.

— David Ciani
source

2

Merci beaucoup d'avoir bien voulu développer la moyenne harmonique à partir de la moyenne algébrique! mais ce qui ne m'associe probablement pas très fermement, c'est la partie où vous dites "ce qui n'est pas particulièrement utile". Dans cette veine, j'ai commenté ci-dessous les deux autres réponses maintenant. Juste au cas où vous iriez plus loin. Par exemple, imaginez que je souhaite choisir le meilleur classificateur parmi un groupe de classificateurs testés sur le même ensemble de données.

— mat

@matt, l'utilisation de toute mesure combinée amènera votre choix de modèle à un certain point mais pas au-delà. Deux modèles ayant la même valeur F1 peuvent afficher des valeurs de rappel et de précision complètement opposées. Par conséquent, pour que F1 soit la même, vous devrez choisir entre Rappel et Précision.

— g3o2

4

La réponse courte est: vous ne vous attendriez pas à ce que la somme de deux pourcentages qui ont deux dénominateurs différents ait une signification particulière. Par conséquent, l'approche pour prendre une mesure moyenne telle que F1, F2 ou F0.5. Ces derniers conservent au moins la propriété d'un pourcentage. Mais qu'en est-il de leur signification?

La beauté de Precision and Recall en tant que mesures distinctes est leur facilité d'interprétation et le fait qu'ils peuvent être facilement confrontés aux objectifs commerciaux du modèle. La précision mesure le pourcentage des true positivescas classés positivepar le modèle. Le rappel mesure le pourcentage de true positivesdécouvertes par le modèle sur tous les truecas. Pour de nombreux problèmes, vous devrez choisir entre l'optimisation de la précision ou du rappel.

Toute mesure moyenne perd l'interprétation ci-dessus et se résume à la mesure que vous préférez le plus. F1 signifie que vous ne savez pas si vous préférez le rappel ou la précision, ou que vous attachez un poids égal à chacun d'eux. Si vous considérez le rappel plus important que la précision, vous devez également lui attribuer un poids plus élevé dans le calcul moyen (par exemple F2) et vice versa (par exemple F0.5).

— g3o2
source

3

Ajouter les deux est une mauvaise mesure. Vous obtiendrez un score d'au moins 1 si vous marquez tout comme positif, car c'est un rappel à 100% par définition. Et vous obtiendrez une petite bosse de précision en plus de cela. La moyenne géométrique utilisée en F1 souligne le maillon faible, car il est multiplicatif; vous devez au moins bien faire avec précision et rappel pour obtenir un score F1 décent.

— Ben Ogorek
source

En fait, c'est cette emphase exacte du maillon faible, que j'ai trouvée superflue lorsque la précision et le rappel sont tous deux sensibles plutôt qu'énervés. Quand ils ne sont pas tous les deux énervés, je ne suis pas sûr de voir la valeur ajoutée d'une métrique soulignant la similitude entre eux, ou mise différemment pénalisante par la taille de leur différence. Cette propriété exacte a en partie motivé ma question initiale ici.

— mat

Cela me semble un travail supplémentaire. Si vous accordez autant de valeur à un point de rappel qu'à un point de précision, je suppose que votre mesure est celle à utiliser. Mais je ne peux pas vous imaginer. Le rappel va probablement dominer, même si vous réduisez les plages. Vous pouvez adapter le rappel pour qu'il s'agisse de pommes à pommes avec précision, mais cela est encore plus de travail et rend l'interprétation moins claire.

— Ben Ogorek

1

Je ne sais pas pourquoi supposer que le rappel devrait dominer (?), Mais la mise à l'échelle du rappel pour être des pommes avec des pommes avec précision pourrait être une discussion connexe intéressante ici ou ailleurs - un pointeur dans la bonne direction pourrait être agréable à avoir :) et sinon merci encore

— mat

3

Le score F1 est particulièrement précieux en cas de probabilités fortement asymétriques.

Prenons l'exemple suivant: nous testons une maladie rare mais dangereuse. Supposons que dans une ville de 1 000 000 d'habitants, seulement 100 soient infectés.

Le test A détecte tous ces 100 positifs. Cependant, il a également un taux de faux positifs de 50%: il indique par erreur que 500 000 autres personnes sont malades.

Pendant ce temps, le test B rate 10% des personnes infectées, mais ne donne que 1 000 faux positifs (0,1% de taux de faux positifs)

Calculons les scores. Pour le test A, la précision sera effectivement 0; le rappel sera exactement de 1. Pour le test B, la précision sera encore assez faible, environ 0,01. Le rappel sera égal à 0,9.

Si nous additionnons ou prenons naïvement une moyenne arithmétique de précision et de rappel, cela donnera 1 (0,5) pour le test A et 0,91 (0,455) pour le test B. Ainsi, le test A semblerait légèrement meilleur.

Cependant, si nous regardons d'un point de vue pratique, le test A ne vaut rien: si une personne est testée positive, sa chance d'être vraiment malade est de 1 sur 50 000! Le test B a une signification plus pratique: vous pouvez emmener 1.100 personnes à l'hôpital et les observer de près. Ceci est reflété avec précision par le score F1: pour le test A, il sera proche de 0,0002, pour le test B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, ce qui est encore assez médiocre, mais environ 50 fois mieux.

Cette correspondance entre la valeur du score et la signification pratique est ce qui rend le score F1 précieux.

— imiltemp
source

Merci. Je ne me suis peut-être pas suffisamment immergé dans le cas, mais cette explication ne dépend-elle pas de l'avantage pragmatique d'allouer des ressources aux «positifs» dans un domaine réel où la détection d'un résultat (un positif) est le but? ce n'est pas toujours le cas, que le but est de détecter un résultat est-ce? Parfois, vous voulez simplement savoir s'il s'agit d'une pomme ou d'une paire, et les deux types d'erreur ont le même coût réel.

— mat

Surtout, ce que je ne vois pas, c'est comment cette propriété d'être «meilleur» s'adapte aux cas où la différence (absolue) entre précision et rappel est moins pathologique. Peut-être que l'intuition est intrinsèquement là, mais je n'y suis pas encore ...

— matt

1

En général, la maximisation de la moyenne géométrique souligne que les valeurs sont similaires. Par exemple, prenons deux modèles: le premier a (précision, rappel) = (0,8, 0,8) et le second a (précision, rappel) = (0,6, 1,0). En utilisant la moyenne algébrique, les deux modèles seraient équivalents. En utilisant la moyenne géométrique, le premier modèle est meilleur car il n'échange pas la précision pour le rappel.

— roundsquare
source

1

Merci beaucoup. Cependant, en termes pratiques, je ne vois aucune préférence universellement applicable entre, par exemple (0,8, 0,8) et (0,7, 0,9). Peut-être que vous aviez fait allusion à quelque chose de plus profond dans "l'échange de Precision pour rappel" - que je ne ramasse pas moi-même (encore). Pour moi, la moyenne algébrique de deux types d'erreur, donne simplement la moyenne la plus simple d'entre eux, sans aucun biais à la similitude. Par exemple, je pourrais utiliser la simple somme de Précision et Rappel pour déterminer lequel des deux classificateurs me donne le moins d'erreur.

— mat

Nous pouvons pousser cela à l'extrême. Disons que vous avez un système qui a (précision, rappel) = (0,6, 0,6). Cela signifie que quand il dit "oui", il a raison 60% du temps et il capture correctement 60% des événements "oui". Comparons maintenant ceci à un système qui a (0.3, 1). Cela a une meilleure moyenne algébrique, mais que fait-il? Il capte tous les événements "oui", mais il dit aussi beaucoup "oui" incorrectement . Est-ce bon? Est-ce mauvais? Cela dépend de la raison pour laquelle vous construisez le système. Quelle action prendrez-vous lorsque vous verrez une prédiction «oui»? Quelle est la conséquence de manquer un événement "oui"?

— roundsquare

1

Aucune de ces mesures n'est une règle de notation correcte

— Frank Harrell

@roundsquare merci beaucoup, mais pour les cas non pathologiques - où les deux ne sont pas proches de 0 et 1 - j'ai probablement besoin d'aide pour voir l'avantage de souligner la similitude entre les deux, dans la mesure finale!

— mat

@FrankHarrell merci d'avoir pointé "l'éléphant dans la pièce"

— mat