Réponses:
Il y a quatre avantages principaux: Premièrement, il a un paramètre de régularisation, ce qui incite l'utilisateur à éviter les sur-ajustements. Deuxièmement, il utilise l'astuce du noyau, vous pouvez donc acquérir des connaissances d'experts sur le problème via l'ingénierie du noyau. Troisièmement, un SVM est défini par un problème d'optimisation convexe (pas de minima locaux) pour lequel il existe des méthodes efficaces (par exemple SMO). Enfin, il s'agit d'une approximation d'une limite sur le taux d'erreur de test, et il y a un corpus substantiel de théorie derrière cela qui suggère que ce devrait être une bonne idée.
Les inconvénients sont que la théorie ne couvre réellement que la détermination des paramètres pour une valeur donnée des paramètres de régularisation et du noyau et le choix du noyau. D'une certaine manière, le SVM déplace le problème du sur-ajustement de l'optimisation des paramètres à la sélection du modèle. Malheureusement, les modèles de noyau peuvent être assez sensibles au sur-ajustement du critère de sélection du modèle, voir
GC Cawley et NLC Talbot, Sur-ajustement dans la sélection des modèles et biais de sélection subséquent dans l'évaluation des performances, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, juillet 2010. ( pdf )
Notez cependant que ce problème n'est pas propre aux méthodes du noyau, la plupart des méthodes d'apprentissage automatique ont des problèmes similaires. La perte de charnière utilisée dans le SVM entraîne une rareté. Cependant, souvent le choix optimal des paramètres de noyau et de régularisation signifie que vous vous retrouvez avec toutes les données comme vecteurs de support. Si vous voulez vraiment une machine noyau clairsemée, utilisez quelque chose qui a été conçu pour être clairsemé dès le départ (plutôt que d'être un sous-produit utile), comme la machine vectorielle informative. La fonction de perte utilisée pour la régression des vecteurs de support n'a pas d'interprétation statistique évidente, souvent une connaissance experte du problème peut être codée dans la fonction de perte, par exemple Poisson ou Bêta ou Gaussienne. De même, dans de nombreux problèmes de classification, vous voulez réellement la probabilité d'appartenance à une classe,
C'est à peu près tout ce que je peux penser d'emblée.