Quelle est la relation entre un SVM et la perte de charnière?

Mon collègue et moi essayons de comprendre la différence entre la régression logistique et un SVM. De toute évidence, ils optimisent différentes fonctions objectives. Un SVM est-il aussi simple que de dire qu'il s'agit d'un classificateur discriminant qui optimise simplement la perte de charnière? Ou est-ce plus complexe que ça? Comment les vecteurs de support entrent-ils en jeu? Et les variables slack? Pourquoi ne pouvez-vous pas avoir de SVM profond comme vous ne pouvez pas avoir un réseau neuronal profond avec des fonctions d'activation sigmoïde?

— Simon
source

Voici ma tentative de répondre à vos questions:

Un SVM est-il aussi simple que de dire qu'il s'agit d'un classificateur discriminant qui optimise simplement la perte de charnière? Ou est-ce plus complexe que ça? Oui, tu peux dire ça. N'oubliez pas non plus qu'il régularise également le modèle. Je ne dirais pas que SVM est plus complexe que cela, cependant, il est important de mentionner que tous ces choix (par exemple la perte de charnière et la régularisation ) ont des interprétations mathématiques précises et ne sont pas arbitraires. C'est ce qui rend les SVM si populaires et puissants. Par exemple, la perte de charnière est une limite supérieure continue et convexe à la perte de tâche qui, pour les problèmes de classification binaire, est la perte . Notez que $L_2$ $0/1$ $0/1$ la perte est non convexe et discontinue. La convexité de la perte de charnière rend l'ensemble de l'entraînement de SVM convexe. Le fait qu'il s'agit d'une limite supérieure de la perte de tâche garantit que le minimiseur de la limite n'aura pas une mauvaise valeur sur la perte de tâche. régularisation peut être interprétée géométriquement comme la taille de la marge. $L_2$
Comment les vecteurs de support entrent-ils en jeu? Les vecteurs de support jouent un rôle important dans la formation des SVM. Ils identifient l'hyperplan de séparation. Soit un ensemble d'apprentissage et l'ensemble des vecteurs de support que l'on obtient en entraînant un SVM sur (en supposant que tous les hyperparamètres sont fixés a priori). Si nous jetons tous les échantillons non SV de et formons un autre SVM (avec les mêmes valeurs d'hyperparamètre) sur les échantillons restants (c'est-à-dire sur ), nous obtenons le même classificateur exact qu'avant! $D$ $SV(D) \subseteq D$ $D$ $D$ $SV(D)$
Et les variables slack? SVM a été initialement conçu pour les problèmes où il existe un hyperplan de séparation (c'est-à-dire un hyperplan qui sépare parfaitement les échantillons d'apprentissage des deux classes), et l'objectif était de trouver, parmi tous les hyperplans de séparation, l'hyperplan avec la plus grande marge . La marge , notée , est définie pour un classificateur et un ensemble d'apprentissage . En supposant que sépare parfaitement tous les exemples dans , nous avons , qui est la distance de l'exemple d'entraînement le plus proche de l'hyperplan de séparation $d(w, D)$ $w$ $D$ $w$ $D$ $d(w, D) = \min_{(x, y) \in D} y \frac{w^Tx}{||w||_2}$ $w$ . Notez que ici. L'introduction de variables lâches a permis de former des SVM sur des problèmes où soit 1) un hyperplan de séparation n'existe pas (c'est-à-dire que les données d'entraînement ne sont pas linéairement séparables), ou 2) vous êtes heureux (ou souhaitez) sacrifier en faisant erreur (biais plus élevé) pour une meilleure généralisation (variance plus faible). Cependant, cela se fait au prix de briser certaines des interprétations mathématiques et géométriques concrètes des SVM sans variables lâches (par exemple, l'interprétation géométrique de la marge). $y \in \{+1, -1\}$
Pourquoi ne pouvez-vous pas avoir de SVM profonds? L'objectif SVM est convexe. Plus précisément, il est quadratique par morceaux; c'est parce que le régularisateur est quadratique et la perte de charnière est linéaire par morceaux. Les objectifs de formation dans les modèles hiérarchiques profonds sont cependant beaucoup plus complexes. En particulier, ils ne sont pas convexes. Bien sûr, on peut concevoir un modèle discriminant hiérarchique avec perte de charnière et régularisation , etc., mais il ne serait pas appelé SVM. En fait, la perte de charnière est couramment utilisée dans les DNN (Deep Neural Networks) pour les problèmes de classification. $L_2$ $L_2$

— Sobi
source