Ma compréhension de SVM est qu'elle est très similaire à une régression logistique (LR), c'est-à-dire qu'une somme pondérée de caractéristiques est passée à la fonction sigmoïde pour obtenir une probabilité d'appartenance à une classe, mais au lieu de la perte d'entropie croisée (logistique) fonction, la formation est effectuée en utilisant la perte de charnière. L'avantage de l'utilisation de la perte de charnière est que l'on peut effectuer diverses astuces numériques pour rendre la noyalisation plus efficace. Un inconvénient, cependant, est que le modèle résultant a moins d'informations qu'un modèle LR correspondant pourrait en avoir. Ainsi, par exemple, sans kernelisation (en utilisant un noyau linéaire), la frontière de décision SVM serait toujours au même endroit où LR produirait une probabilité de 0,5, MAIS on ne peut pas dire à quelle vitesse la probabilité d'appartenir à une classe se désintègre de la limite de décision.
Mes deux questions sont:
- Mon interprétation ci-dessus est-elle correcte?
- Comment l'utilisation de la perte de charnière rend-elle invalide l'interprétation des résultats SVM comme probabilités?