perte de charnière vs perte de logistique avantages et inconvénients / limitations


14

La perte de charnière peut être définie à l'aide de et la perte de journal peut être définie commemax(0,1-yjewTXje)Journal(1+exp(-yjewTXje))

J'ai les questions suivantes:

  1. Y a-t-il des inconvénients à la perte de charnière (par exemple, sensible aux valeurs aberrantes comme mentionné dans http://www.unc.edu/~yfliu/papers/rsvm.pdf )?

  2. Quels sont les différences, avantages, inconvénients de l'un par rapport à l'autre?

Réponses:


22

La minimisation des pertes logarithmiques conduit à des sorties probabilistes bien comportées.

La perte de charnière entraîne une rareté (non garantie) sur le double, mais elle n'aide pas à l'estimation des probabilités. Au lieu de cela, il punit les erreurs de classification (c'est pourquoi il est si utile de déterminer les marges): la diminution de la perte de charnière s'accompagne d'une diminution entre les erreurs de classification des marges.

Donc, résumant:

  • La perte logarithmique conduit à une meilleure estimation des probabilités au détriment de la précision

  • La perte de charnière conduit à une meilleure précision et une certaine rareté au prix d'une sensibilité beaucoup plus faible en ce qui concerne les probabilités


1
+1. Minimiser la perte logistique correspond à maximiser la vraisemblance binomiale. Minimiser la perte par erreur quadratique correspond à maximiser la probabilité gaussienne (c'est juste une régression OLS; pour une classification à 2 classes, c'est en fait équivalent à LDA). Savez-vous si minimiser la perte de charnière correspond à maximiser une autre probabilité? Existe-t-il un modèle probabiliste correspondant à la perte de charnière?
amibe dit Réintégrer Monica

1
@amoeba C'est une question intéressante, mais les SVM ne sont pas intrinsèquement basés sur la modélisation statistique. Cela dit, vérifiez cette réponse de Glen_b. Tout le fil est à ce sujet, mais à la place pour la charnière insensible à epsilon.
Firebug

4

@Firebug a eu une bonne réponse (+1). En fait, j'avais une question similaire ici.

Quels sont les impacts du choix de différentes fonctions de perte dans la classification pour approcher la perte 0-1

Je veux juste ajouter plus sur un autre gros avantage de la perte logistique: l'interprétation probabiliste. Un exemple, peut être trouvé ici

Plus précisément, la régression logistique est un modèle classique dans la littérature statistique. (Voir, que signifie le nom «régression logistique»? Pour la dénomination.) Il existe de nombreux concepts importants liés à la perte logistique, tels que maximiser l'estimation du log vraisemblance, les tests de rapport de vraisemblance, ainsi que les hypothèses sur le binôme. Voici quelques discussions connexes.

Test du rapport de vraisemblance dans R

Pourquoi la régression logistique n'est-elle pas appelée classification logistique?

Y a-t-il une hypothèse sur la régression logistique?

Différence entre les modèles logit et probit


1

Étant donné que @ hxd1011 a ajouté un avantage de l'entropie croisée, j'en ajouterai un inconvénient.

L'erreur d'entropie croisée est l'une des nombreuses mesures de distance entre les distributions de probabilité, mais un inconvénient est que les distributions à queue longue peuvent être mal modélisées avec trop de poids compte tenu des événements improbables.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.