Voici une des raisons pour lesquelles la double formulation est attrayante du point de vue de l'optimisation numérique. Vous pouvez trouver les détails dans l' article suivant :
Hsieh, C.-J., Chang, K.-W., Lin, C.-J., Keerthi, SS et Sundararajan, S., «Méthode de descente à deux coordonnées pour une SVM linéaire à grande échelle», Actes du 25ème conférence internationale sur l'apprentissage automatique, Helsinki, 2008.
La double formulation implique une seule contrainte d'égalité affine et n contraintes liées.
1. La contrainte d'égalité affine peut être "éliminée" de la formulation double.
Cela peut être fait simplement en regardant vos données dans R ^ (d + 1) via l’incorporation de R ^ d dans R ^ (d + 1), résiliant l’ajout d’une seule coordonnée "1" à chaque point de données, c.-à-d. R ^ d ----> R ^ (d + 1): (a1, ..., ad) | ---> (a1, ..., ad, 1).
Cela permet de reformuler le problème de séparabilité linéaire dans R ^ (d + 1) et d’éliminer le terme constant w0 de votre classifieur, ce qui élimine à son tour la contrainte d’égalité affine du dual.
2. Au point 1, le dual peut facilement être transformé en un problème d'optimisation quadratique convexe dont les contraintes ne sont que des contraintes liées.
3. Le problème dual peut maintenant être résolu efficacement, c'est-à-dire via un algorithme de descente à deux coordonnées qui donne une solution epsilon-optimale en O (log (1 / epsilon)).
Ceci est fait en notant que la fixation de tous les alphas sauf un donne une solution de forme fermée. Vous pouvez ensuite parcourir tous les alphas un par un (par exemple, en choisir un au hasard, en fixant tous les autres alphas, en calculant la solution de formulaire fermé). On peut montrer que vous obtiendrez ainsi une solution quasi optimale "assez rapidement" (voir le théorème 1 dans l'article susmentionné).
Le double problème est attrayant du point de vue de l'optimisation pour de nombreuses autres raisons, certaines exploitant le fait qu'il n'a qu'une seule contrainte d'égalité affine (les contraintes restantes sont toutes des contraintes liées), tandis que d'autres exploitent l'observation qui se pose lors de la solution. du problème double "souvent, la plupart des alphas" sont égaux à zéro (des alphas non nuls correspondant aux vecteurs de support).
Vous pouvez obtenir un bon aperçu des considérations relatives à l'optimisation numérique des SVM à partir de la présentation de Stephen Wright à l'atelier d'apprentissage par ordinateur (2009).
PS: Je suis nouveau ici. Toutes mes excuses pour ne pas être bon à utiliser la notation mathématique sur ce site.