Les problèmes de classification de texte ont tendance à être de dimension assez élevée (de nombreuses fonctionnalités), et les problèmes de grande dimension sont susceptibles d'être linéairement séparables (comme vous pouvez séparer tous les points d + 1 dans un espace en dimension d avec un classificateur linéaire, quelle que soit la façon dont les points sont étiquetés). Ainsi, les classificateurs linéaires, qu'il s'agisse de régression de crête ou de SVM avec un noyau linéaire, sont susceptibles de bien fonctionner. Dans les deux cas, le paramètre de crête ou C pour le SVM (comme le mentionne tdc +1) contrôle la complexité du classificateur et aide à éviter le sur-ajustement en séparant les modèles de chaque classe par de grandes marges (c'est-à-dire que la surface de décision passe par le milieu de l'écart entre les deux collections de points). Cependant, pour obtenir de bonnes performances, les paramètres de crête / régularisation doivent être correctement réglés (j'utilise la validation croisée avec congé, car elle est bon marché).
Cependant, la raison pour laquelle la régression de crête fonctionne bien est que les méthodes non linéaires sont trop puissantes et qu'il est difficile d'éviter un ajustement excessif. Il peut y avoir un classifieur non linéaire qui donne de meilleures performances de généralisation que le meilleur modèle linéaire, mais il est trop difficile d'estimer ces paramètres en utilisant l'échantillon fini de données d'entraînement que nous avons. En pratique, plus le modèle est simple, moins nous avons de problèmes d'estimation des paramètres, donc il y a moins de tendance à sur-ajuster, donc nous obtenons de meilleurs résultats en pratique.
Un autre problème est la sélection des fonctionnalités, la régression de crête évite le sur-ajustement en régularisant les poids pour les garder petits, et la sélection du modèle est simple car vous n'avez qu'à choisir la valeur d'un seul paramètre de régression. Si vous essayez d'éviter le sur-ajustement en choisissant l'ensemble optimal de fonctions, la sélection du modèle devient difficile car il existe un degré de liberté (en quelque sorte) pour chaque fonction, ce qui permet de sur-ajuster le critère de sélection de la fonction et vous se retrouver avec un ensemble de fonctionnalités qui est optimal pour cet échantillon particulier de données, mais qui donne de mauvaises performances de généralisation. Donc, ne pas effectuer de sélection de fonctionnalités et utiliser la régularisation peut souvent donner de meilleures performances prédictives.
J'utilise souvent l'ensachage (former un comité de modèles formés sur des échantillons bootstraped de l'ensemble de formation) avec des modèles de régression de crête, ce qui donne souvent une amélioration des performances, et comme tous les modèles sont linéaires, vous pouvez les combiner pour former un seul modèle linéaire , il n'y a donc aucun impact sur les performances en fonctionnement.