Pourquoi est-ce mal d'interpréter SVM comme des probabilités de classification?

Ma compréhension de SVM est qu'elle est très similaire à une régression logistique (LR), c'est-à-dire qu'une somme pondérée de caractéristiques est passée à la fonction sigmoïde pour obtenir une probabilité d'appartenance à une classe, mais au lieu de la perte d'entropie croisée (logistique) fonction, la formation est effectuée en utilisant la perte de charnière. L'avantage de l'utilisation de la perte de charnière est que l'on peut effectuer diverses astuces numériques pour rendre la noyalisation plus efficace. Un inconvénient, cependant, est que le modèle résultant a moins d'informations qu'un modèle LR correspondant pourrait en avoir. Ainsi, par exemple, sans kernelisation (en utilisant un noyau linéaire), la frontière de décision SVM serait toujours au même endroit où LR produirait une probabilité de 0,5, MAIS on ne peut pas dire à quelle vitesse la probabilité d'appartenir à une classe se désintègre de la limite de décision.

Mes deux questions sont:

Mon interprétation ci-dessus est-elle correcte?
Comment l'utilisation de la perte de charnière rend-elle invalide l'interprétation des résultats SVM comme probabilités?

machine-learning logistic svm

— GingerBadger
source

Un SVM n'alimente rien dans une fonction sigmoïde. Il adapte un hyperplan de séparation aux données qui essaient de mettre tous les points de données de votre ensemble d'entraînement qui sont d'une classe d'un côté, et tous les points de l'autre classe de l'autre. Par conséquent, il attribue une classe en fonction de quel côté se trouve votre vecteur d'entités. Plus formellement, si nous désignons le vecteur d'entité comme et les coefficients d'hyperplan comme et l'interception, alors l'affectation de classe est . Résoudre un SVM revient à trouver $\mathbf{x}$ $\mathbf{\beta}$ $\beta_0$ $y = sign(\beta \cdot \mathbf{x} + \beta_0)$ $\beta, \beta_0$ qui minimisent la perte de charnière avec la plus grande marge possible. Par conséquent, comme un SVM ne se soucie que de quel côté de l'hyperplan sur lequel vous vous trouvez, vous ne pouvez pas transformer ses affectations de classe en probabilités.

Dans le cas d'un SVM linéaire (pas de noyau), la frontière de la limite de décision sera similaire à celle d'un modèle de régression logistique, mais peut varier en fonction de la force de régularisation que vous avez utilisée pour ajuster le SVM. Étant donné que le SVM et le LR résolvent différents problèmes d'optimisation, il n'est pas garanti d'avoir des solutions identiques pour la frontière de décision.

Il existe de nombreuses ressources sur le SVM qui aideront à clarifier les choses: voici un exemple et un autre.

— le higgs broson
source

higgs boson C'est très utile, merci! Juste quelques questions de suivi: (1) pourriez-vous donner un exemple intuitif où une frontière de décision SVM ne serait PAS similaire à une LR?, (2) est l'une des SVM linéaires et LR généralement meilleure que l'autre, ou y a-t-il types de problèmes pour lesquels l'un ou l'autre est préférable?

— GingerBadger

Alex: en général, les SVM linéaires et les LR fonctionnent généralement de manière comparable dans la pratique. Si vous voulez une sortie probabiliste, utilisez LR. Si vous ne vous souciez que des devoirs de classe, vous pouvez utiliser l'un ou l'autre. Si vous vouliez un exemple où leurs limites de décision seraient très différentes, vous pourriez imaginer un ensemble de données linéairement séparable avec une poignée de points de la mauvaise classe loin de la limite de décision. Les valeurs aberrantes tireraient la limite de régression logistique vers elles-mêmes, mais si vous aviez un SVM avec un terme de régularisation suffisamment grand, il ignorerait effectivement les valeurs aberrantes.

— the higgs broson