Je m'intéresse aux résultats théoriques pour la capacité de généralisation des machines à vecteurs de support, par exemple les limites sur la probabilité d'erreur de classification et sur la dimension Vapnik-Chervonenkis (VC) de ces machines. Cependant, en lisant la littérature, j'ai eu l'impression que certains résultats récurrents similaires ont tendance à différer légèrement d'un auteur à l'autre, en particulier en ce qui concerne les conditions techniques requises pour une donnée donnée à tenir.
Dans ce qui suit, je rappellerai la structure du problème SVM et l'état 3 des principaux résultats de généralisation que j'ai régulièrement trouvés sous une forme ou une autre je donne 3 références principales tout au long de l'exposition.
Réglage du problème :
Supposons que nous ayons un échantillon de données de paires indépendantes et identiquement distribuées (iid) où pour tout , et . Nous construisons une machine à vecteur de support (SVM) qui maximise la marge minimale entre l'hyperplan de séparation défini par , et , et le point le plus proche parmi manière à séparer les deux classes définies par et . Nous laissons le SVM admettre quelques erreurs à travers une marge souple en introduisant des variables de mou - mais pour simplifier la notation, nous ignorons la possibilité de noyaux. Les paramètres de solution et sont obtenus en résolvant le programme d'optimisation quadratique convexe suivant:b ∗
Nous sommes intéressés par la capacité de généralisation de cette machine.
Dimension VC de Vapnik-Chervonenkis :
Un premier résultat est dû à (Vapnik, 2000), dans lequel il délimite la dimension VC d'un hyperplan séparateur, le théorème 5.1. Laisser, nous avons:
Ce résultat peut de nouveau être trouvé dans (Burges, 1998), théorème 6. Cependant, il semble que le théorème de Burges soit plus restrictif que le même résultat de Vapnik, car il doit définir une catégorie spéciale de classificateurs, appelés classificateurs tolérants aux écarts. à laquelle appartient le SVM , pour énoncer le théorème.
Limites de la probabilité d'erreurs :
Dans (Vapnik, 2000), le théorème 5.2 de la page 139 donne la limite suivante sur la capacité de généralisation SVM:
où est le nombre de vecteurs de support du SVM. Ces résultats semblent se retrouver dans (Burges, 1998), dans les équations (86) et (93) respectivement. Mais encore une fois, Burges semble différer de Vapnik car il sépare les composants au sein de la fonction minimale ci-dessus dans différents théorèmes, avec des conditions différentes.
Un autre résultat apparaissant dans (Vapnik, 2000), p.133, est le suivant. En supposant à nouveau que, pour tout , et en laissant et , nous définissons comme étant égal à:
Nous définissons également comme le nombre d'exemples de formation mal classés par le SVM. Ensuite, avec la probabilité nous pouvons affirmer que la probabilité qu'un exemple de test ne soit pas séparé correctement par l' hyperplan -marge c'est-à dire SVM avec la marge a la limite:
Cependant, dans (Hastie, Tibshirani et Friedman, 2009), p.438, un résultat très similaire est trouvé:
Conclusion :
Il me semble qu'il existe un certain degré de conflit entre ces résultats. En revanche, deux de ces références, bien que canoniques dans la littérature SVM, commencent à être légèrement anciennes (1998 et 2000), surtout si l'on considère que la recherche sur l'algorithme SVM a commencé au milieu des années 90.
Mes questions sont:
- Ces résultats sont-ils toujours valables aujourd'hui ou se sont-ils révélés erronés?
- Des limites plus strictes avec des conditions relativement lâches ont-elles été dérivées depuis lors? Si oui, par qui et où puis-je les trouver?
- Enfin, existe-t-il un matériel de référence qui synthétise les principaux résultats de généralisation concernant le SVM?
Références :
Vapnik, VN (1998). Théorie de l'apprentissage statistique , 1re édition, John Wiley & Sons
Vapnik, VN (2000). The Nature of Statistical Learning Theory , 2e édition, Springer