En pratique, les SVM ont tendance à résister au sur-ajustement, même dans les cas où le nombre d'attributs est supérieur au nombre d'observations, c'est qu'ils utilisent la régularisation. Pour éviter les sur-ajustements, il est essentiel d’ajuster soigneusement le paramètre de régularisation, , et dans le cas de SVM non linéaires, de choisir avec soin le noyau et d’ajuster les paramètres du noyau.C
Le SVM est une implémentation approximative d’une borne sur l’erreur de généralisation, qui dépend de la marge (essentiellement de la distance entre la limite de décision et le motif le plus proche de chaque classe), mais qui est indépendante de la dimensionnalité de l’espace caractéristique (raison pour laquelle utiliser l’astuce du noyau pour mapper les données dans un espace très dimensionnel n’est pas une si mauvaise idée que cela puisse paraître). Donc, en principe, les SVM devraient être très résistants au sur-ajustement, mais cela dépend en pratique du choix judicieux de et des paramètres du noyau. Malheureusement, le sur-ajustement peut également se produire assez facilement lors du réglage des hyper-paramètres, qui est mon domaine de recherche principal, voirC
GC Cawley et NLC Talbot, Empêcher le sur-ajustement dans la sélection du modèle via la régularisation bayésienne des hyper-paramètres, Journal of Machine Learning Research, volume 8, pages 841 à 861, avril 2007. ( www )
et
GC Cawley et NLC Talbot, sur-adaptation dans la sélection du modèle et biais de sélection subséquent dans l'évaluation de la performance, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, juillet 2010. ( www )
Ces deux articles utilisent la régression de la crête du noyau, plutôt que le SVM, mais le même problème se pose aussi facilement avec les SVM (des limites similaires s'appliquent également à KRR, de sorte qu'il n'y a pas beaucoup de choix entre eux en pratique). D'une certaine manière, les SVM ne résolvent pas vraiment le problème du sur-ajustement, ils ne font que déplacer le problème de l'ajustement du modèle à la sélection du modèle.
Il est souvent tentant de simplifier un peu la vie du SVM en effectuant d’abord une sorte de sélection de fonctionnalités. Cela ne fait généralement qu'aggraver les choses, car contrairement au SVM, les algorithmes de sélection de caractéristiques ont tendance à présenter une sur-adaptation plus grande à mesure que le nombre d'attributs augmente. À moins que vous ne souhaitiez savoir quels sont les attributs informatifs, il est généralement préférable de passer l'étape de sélection des fonctionnalités et d'utiliser simplement la régularisation pour éviter de surcharger les données.
En résumé, l'utilisation d'un SVM (ou d'un autre modèle régularisé tel que la régression de crête, le LARS, le lasso, le réseau élastique, etc.) sur un problème comportant 120 observations et des milliers d'attributs ne pose aucun problème, à condition que les paramètres de régularisation soient correctement réglés .