Quelle est la meilleure façon d'expliquer pourquoi n'est pas une bonne mesure, par exemple, par rapport à F1?
Quelle est la meilleure façon d'expliquer pourquoi n'est pas une bonne mesure, par exemple, par rapport à F1?
Réponses:
Ce n'est pas que soit une mauvaise mesure en soi, c'est juste que, en soi, le nombre résultant ne représente rien de significatif. Vous êtes sur la bonne voie cependant ... ce que nous recherchons est une moyenne combinée des deux mesures de performance, car nous ne voulons pas avoir à choisir entre elles.
Rappelons que la précision et le rappel sont définis comme:
Rappel positif prédit =Vrai positif
Puisqu'ils ont tous les deux des dénominateurs différents, les additionner ensemble donne quelque chose comme ceci: ... ce qui n'est pas particulièrement utile.
Revenons à les ajouter ensemble, et apportons un petit plus: multipliez-les par sorte qu'ils soient le séjour dans l'échelle correcte,[0-1]. Cela en prend la moyenne familière.
Donc, nous avons deux quantités, qui ont le même numérateur, mais des dénominateurs différents et nous aimerions en prendre la moyenne. Qu'est-ce qu'on fait? Eh bien, nous pourrions les retourner, prendre leur inverse. Ensuite, vous pouvez les ajouter ensemble. Ils sont donc "côté droit vers le haut", vous reprenez l'inverse.
Ce processus d'inversion, puis d'inversion à nouveau transforme une moyenne "régulière" en une moyenne harmonique. Il se trouve que la moyenne harmonique de précision et de rappel est la statistique F1. La moyenne harmonique est généralement utilisée au lieu de la moyenne arithmétique standard lorsqu'il s'agit de taux, comme nous le faisons ici.
En fin de compte, la statistique F1 n'est que la moyenne de précision et de rappel, et vous l'utilisez parce que vous ne voulez pas choisir l'un ou l'autre pour évaluer les performances du modèle.
La réponse courte est: vous ne vous attendriez pas à ce que la somme de deux pourcentages qui ont deux dénominateurs différents ait une signification particulière. Par conséquent, l'approche pour prendre une mesure moyenne telle que F1, F2 ou F0.5. Ces derniers conservent au moins la propriété d'un pourcentage. Mais qu'en est-il de leur signification?
La beauté de Precision and Recall en tant que mesures distinctes est leur facilité d'interprétation et le fait qu'ils peuvent être facilement confrontés aux objectifs commerciaux du modèle. La précision mesure le pourcentage des true positives
cas classés positive
par le modèle. Le rappel mesure le pourcentage de true positives
découvertes par le modèle sur tous les true
cas. Pour de nombreux problèmes, vous devrez choisir entre l'optimisation de la précision ou du rappel.
Toute mesure moyenne perd l'interprétation ci-dessus et se résume à la mesure que vous préférez le plus. F1 signifie que vous ne savez pas si vous préférez le rappel ou la précision, ou que vous attachez un poids égal à chacun d'eux. Si vous considérez le rappel plus important que la précision, vous devez également lui attribuer un poids plus élevé dans le calcul moyen (par exemple F2) et vice versa (par exemple F0.5).
Ajouter les deux est une mauvaise mesure. Vous obtiendrez un score d'au moins 1 si vous marquez tout comme positif, car c'est un rappel à 100% par définition. Et vous obtiendrez une petite bosse de précision en plus de cela. La moyenne géométrique utilisée en F1 souligne le maillon faible, car il est multiplicatif; vous devez au moins bien faire avec précision et rappel pour obtenir un score F1 décent.
Le score F1 est particulièrement précieux en cas de probabilités fortement asymétriques.
Prenons l'exemple suivant: nous testons une maladie rare mais dangereuse. Supposons que dans une ville de 1 000 000 d'habitants, seulement 100 soient infectés.
Le test A détecte tous ces 100 positifs. Cependant, il a également un taux de faux positifs de 50%: il indique par erreur que 500 000 autres personnes sont malades.
Pendant ce temps, le test B rate 10% des personnes infectées, mais ne donne que 1 000 faux positifs (0,1% de taux de faux positifs)
Calculons les scores. Pour le test A, la précision sera effectivement 0; le rappel sera exactement de 1. Pour le test B, la précision sera encore assez faible, environ 0,01. Le rappel sera égal à 0,9.
Si nous additionnons ou prenons naïvement une moyenne arithmétique de précision et de rappel, cela donnera 1 (0,5) pour le test A et 0,91 (0,455) pour le test B. Ainsi, le test A semblerait légèrement meilleur.
Cependant, si nous regardons d'un point de vue pratique, le test A ne vaut rien: si une personne est testée positive, sa chance d'être vraiment malade est de 1 sur 50 000! Le test B a une signification plus pratique: vous pouvez emmener 1.100 personnes à l'hôpital et les observer de près. Ceci est reflété avec précision par le score F1: pour le test A, il sera proche de 0,0002, pour le test B: (0,01 * 0,9) / (0,01 + 0,9) = 0,0098, ce qui est encore assez médiocre, mais environ 50 fois mieux.
Cette correspondance entre la valeur du score et la signification pratique est ce qui rend le score F1 précieux.
En général, la maximisation de la moyenne géométrique souligne que les valeurs sont similaires. Par exemple, prenons deux modèles: le premier a (précision, rappel) = (0,8, 0,8) et le second a (précision, rappel) = (0,6, 1,0). En utilisant la moyenne algébrique, les deux modèles seraient équivalents. En utilisant la moyenne géométrique, le premier modèle est meilleur car il n'échange pas la précision pour le rappel.