Explication intuitive de la perte de journal


10

Dans plusieurs compétitions de kaggle, la notation était basée sur la "perte de log". Cela concerne l'erreur de classification.

Voici une réponse technique mais je recherche une réponse intuitive. J'ai vraiment aimé les réponses à cette question sur la distance de Mahalanobis, mais PCA n'est pas logloss.

Je peux utiliser la valeur de mon logiciel de classification, mais je ne la comprends pas vraiment. Pourquoi l'utilisons-nous au lieu de vrais / faux positifs / négatifs? Pouvez-vous m'aider pour que je puisse expliquer cela à ma grand-mère ou à un débutant dans le domaine?

J'aime aussi et suis d'accord avec la citation:

vous ne comprenez vraiment quelque chose que si vous pouvez l'expliquer à votre grand
- mère - Albert Einstein

J'ai essayé de répondre à cela par moi-même avant de poster ici.

Les liens que je n'ai pas trouvés intuitifs ou vraiment utiles incluent:

Celles-ci sont informatives et précises. Ils sont destinés à un public technique. Ils ne dessinent pas une image simple, ni ne donnent d'exemples simples et accessibles. Ils ne sont pas écrits pour ma grand-mère.


vous n'avez pas fourni de lien vers votre réponse technique
bdeonovic


@ EhsanM.Kermani - Je n'ai pas trouvé ceux intuitifs comme ceux pour Mahalanobis auxquels j'ai fait référence.
EngrStudent

1
l' entrée sur le site kaggle donne une explication assez concise de logloss
bdeonovic

Réponses:


8

Logloss est le logarithme du produit de toutes les probabilités. Supposons qu'Alice prédit:

  • avec une probabilité de 0,2, John tuera Jack
  • avec une probabilité de 0,001, Mary épousera John
  • avec une probabilité de 0,01, Bill est un meurtrier.

Il s'est avéré que Mary n'a pas épousé John, Bill n'est pas un meurtrier, mais John a tué Jack. Le produit des probabilités, selon Alice, est de 0,2 * 0,999 * 0,99 = 0,197802

Bob a prédit:

  • avec une probabilité de 0,5, John tuera Jack
  • avec une probabilité de 0,5, Mary épousera John
  • avec une probabilité de 0,5, Bill est un meurtrier.

Le produit est 0,5 * 0,5 * 0,5 = 0,125.

Alice est un meilleur prédicteur que Bob.


pourquoi le "produit de toutes les probabilités" fonctionne-t-il? Cela ressemble à un relatif de maximisation des attentes.
EngrStudent

3
Avez-vous besoin d'une preuve formelle? C'est dans la "réponse technique" mentionnée par le topicstarter. Avez-vous besoin d'une «grand-mère» informelle pourquoi? Vous dites: supposez que cet homme ait donné des prédictions correctes. Quelle est la probabilité que tout se passe comme il s'est réellement passé? C'est le produit des probabilités.
user31264

"produit de probabilités" n'est pas "grand-mère". logarithme du produit des probabilités est la somme des log-probabilités, qu'ils utilisent dans la maximisation des attentes et appellent "attente". Je pense qu'il est également codé dans la divergence KL. ... Je pense que dans le discours de grand-mère, vous pourriez dire "" le plus probable "= la probabilité globale la plus élevée d'événements multiples. Il y en a deux qui deviennent" les plus élevés ": 1) maximiser la probabilité combinée ou 2) minimiser la probabilité combinée négative. La plupart des machines l'apprentissage aime la "descente de gradient" ou la minimisation de la méchanceté. La perte de journal est la probabilité négative mise à l'échelle par la taille de l'échantillon, et elle est minimisée.
EngrStudent

Ici, le lien dit "exp (-loss) est la probabilité moyenne de prédiction correcte."
EngrStudent

J'ai aimé l'évêque ici . C'est l'équation 4.108 et c'est la fonction d'erreur d'entropie croisée.
EngrStudent
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.