Comme toute métrique, une bonne métrique est la meilleure que la "muette", par hasard, si vous deviez deviner sans aucune information sur les observations. C'est ce qu'on appelle le modèle d'interception uniquement dans les statistiques.
Cette supposition "stupide" dépend de 2 facteurs:
- le nombre de classes
- l'équilibre des classes: leur prévalence dans l'ensemble de données observé
Dans le cas de la métrique LogLoss, une métrique "bien connue" habituelle consiste à dire que 0,693 est la valeur non informative. Ce chiffre est obtenu en prédisant p = 0.5
pour n'importe quelle classe d'un problème binaire. Ceci n'est valable que pour les problèmes binaires équilibrés . Parce que lorsque la prévalence d'une classe est de 10%, alors vous prédirez toujours p =0.1
pour cette classe. Ce sera votre base de prédiction muette, par hasard, car la prédiction 0.5
sera plus stupide.
I. Impact du nombre de classes N
sur la perte de log:
Dans le cas équilibré (chaque classe a la même prévalence), lorsque vous prédisez p = prevalence = 1 / N
pour chaque observation, l'équation devient simplement:
Logloss = -log(1 / N)
log
étant Ln
, logarithme népérien pour ceux qui utilisent cette convention.
Dans le cas binaire, N = 2
:Logloss = - log(1/2) = 0.693
Donc, les stupides Loglosses sont les suivants:
II. Impact de la prévalence des classes sur le Logloss muet:
une. Cas de classification binaire
Dans ce cas, nous prédisons toujours p(i) = prevalence(i)
et nous obtenons le tableau suivant:
Ainsi, lorsque les classes sont très déséquilibrées (prévalence <2%), une perte de log de 0,1 peut en fait être très mauvaise! Une telle précision de 98% serait mauvaise dans ce cas. Alors peut-être que Logloss ne serait pas la meilleure métrique à utiliser
b. Boîtier à trois classes
"Dumb" -logloss selon la prévalence - cas à trois classes:
Nous pouvons voir ici les valeurs des cas binaires et à trois classes équilibrés (0,69 et 1,1).
CONCLUSION
Une perte de log de 0,69 peut être bonne dans un problème multiclasse et très mauvaise dans un cas biaisé binaire.
Selon votre cas, vous feriez mieux de calculer vous-même la ligne de base du problème, pour vérifier la signification de votre prédiction.
Dans les cas biaisés, je comprends que la perte de journal a le même problème que la précision et les autres fonctions de perte: elle ne fournit qu'une mesure globale de vos performances. Donc, vous feriez mieux de compléter votre compréhension avec des mesures axées sur les classes minoritaires (rappel et précision), ou peut-être de ne pas utiliser du tout la perte de journal.