Pourquoi le classificateur de régression d'arête fonctionne-t-il assez bien pour la classification de texte?

Au cours d'une expérience de classification de texte, j'ai trouvé un classificateur de crête générant des résultats qui dépassent constamment les tests parmi les classificateurs qui sont le plus souvent mentionnés et appliqués pour les tâches d'exploration de texte, tels que SVM, NB, kNN, etc. Cependant, je n'ai pas élaboré sur l'optimisation de chaque classificateur sur cette tâche de classification de texte spécifique, à l'exception de quelques ajustements simples sur les paramètres.

Un tel résultat a également été mentionné Dikran Marsupial .

Ne venant pas du milieu des statistiques, après avoir lu certains documents en ligne, je ne parviens toujours pas à en comprendre les principales raisons. Quelqu'un pourrait-il donner un aperçu de ce résultat?

— Flocon
source

Réponses:

Les problèmes de classification de texte ont tendance à être de dimension assez élevée (de nombreuses fonctionnalités), et les problèmes de grande dimension sont susceptibles d'être linéairement séparables (comme vous pouvez séparer tous les points d + 1 dans un espace en dimension d avec un classificateur linéaire, quelle que soit la façon dont les points sont étiquetés). Ainsi, les classificateurs linéaires, qu'il s'agisse de régression de crête ou de SVM avec un noyau linéaire, sont susceptibles de bien fonctionner. Dans les deux cas, le paramètre de crête ou C pour le SVM (comme le mentionne tdc +1) contrôle la complexité du classificateur et aide à éviter le sur-ajustement en séparant les modèles de chaque classe par de grandes marges (c'est-à-dire que la surface de décision passe par le milieu de l'écart entre les deux collections de points). Cependant, pour obtenir de bonnes performances, les paramètres de crête / régularisation doivent être correctement réglés (j'utilise la validation croisée avec congé, car elle est bon marché).

Cependant, la raison pour laquelle la régression de crête fonctionne bien est que les méthodes non linéaires sont trop puissantes et qu'il est difficile d'éviter un ajustement excessif. Il peut y avoir un classifieur non linéaire qui donne de meilleures performances de généralisation que le meilleur modèle linéaire, mais il est trop difficile d'estimer ces paramètres en utilisant l'échantillon fini de données d'entraînement que nous avons. En pratique, plus le modèle est simple, moins nous avons de problèmes d'estimation des paramètres, donc il y a moins de tendance à sur-ajuster, donc nous obtenons de meilleurs résultats en pratique.

Un autre problème est la sélection des fonctionnalités, la régression de crête évite le sur-ajustement en régularisant les poids pour les garder petits, et la sélection du modèle est simple car vous n'avez qu'à choisir la valeur d'un seul paramètre de régression. Si vous essayez d'éviter le sur-ajustement en choisissant l'ensemble optimal de fonctions, la sélection du modèle devient difficile car il existe un degré de liberté (en quelque sorte) pour chaque fonction, ce qui permet de sur-ajuster le critère de sélection de la fonction et vous se retrouver avec un ensemble de fonctionnalités qui est optimal pour cet échantillon particulier de données, mais qui donne de mauvaises performances de généralisation. Donc, ne pas effectuer de sélection de fonctionnalités et utiliser la régularisation peut souvent donner de meilleures performances prédictives.

J'utilise souvent l'ensachage (former un comité de modèles formés sur des échantillons bootstraped de l'ensemble de formation) avec des modèles de régression de crête, ce qui donne souvent une amélioration des performances, et comme tous les modèles sont linéaires, vous pouvez les combiner pour former un seul modèle linéaire , il n'y a donc aucun impact sur les performances en fonctionnement.

— Dikran Marsupial
source

d - 1

$d-1$

d

$d$

Il est normalement supposé que les points sont en "position générale", de sorte que (par exemple) ils ne se trouvent pas sur une ligne droite, auquel cas dans un espace 2D vous pouvez séparer 3 points quelconques. Si tous les points se trouvent en ligne droite, alors ils habitent vraiment un sous-espace 1-D intégré dans un espace 2-D.

— Dikran Marsupial

Sur wikipedia, il y a la déclaration "puisque la méthode fait la moyenne de plusieurs prédicteurs, elle n'est pas utile pour améliorer les modèles linéaires" bien que je ne sais pas pourquoi cela devrait être vrai?

— tdc

Je ne vois pas pourquoi cela devrait être vrai non plus. Je soupçonne le problème qu'un modèle linéaire ensaché peut être représenté exactement par un seul modèle linéaire, mais le problème est l'estimation des paramètres du modèle unique, pas la forme du modèle. J'ai trouvé que l'ensachage améliore la généralisation, mais le gain est généralement faible, sauf si vous avez beaucoup plus de fonctionnalités que les observations (de sorte que l'estimation du modèle est instable et qu'un petit changement dans les données produit un grand changement dans le modèle).

— Dikran Marsupial

Vous devriez peut-être mettre à jour la page Wikipedia! Vous

— semblez bien

La régression des crêtes, comme son nom l'indique, est une méthode de régression plutôt que de classification. Vraisemblablement, vous utilisez un seuil pour le transformer en classificateur. Dans tous les cas, vous apprenez simplement un classificateur linéaire défini par un hyperplan. La raison pour laquelle cela fonctionne est que la tâche à accomplir est essentiellement séparable linéairement - c'est-à-dire qu'un simple hyperplan est tout ce qui est nécessaire pour séparer les classes. Le paramètre "crête" lui permet de fonctionner dans des cas qui ne sont pas complètement séparables linéairement ou des problèmes qui sont déficients dans le classement (auquel cas l'optimisation serait dégénérée).

Dans ce cas, il n'y a aucune raison pour que les autres classificateurs ne fonctionnent pas aussi bien, en supposant qu'ils ont été correctement implémentés. Par exemple, le SVM trouve «l'hyperplan de séparation optimal» (c'est-à-dire l'hyperplan qui maximise la marge, ou l'écart, entre les classes). Le Cparamètre du SVM est un paramètre de contrôle de capacité analogue au paramètre de la crête, qui permet certaines erreurs de classification (valeurs aberrantes). En supposant que le processus de sélection des paramètres a été effectué avec diligence, je m'attendrais à ce que les deux méthodes produisent presque exactement les mêmes résultats sur un tel ensemble de données.

— tdc
source

Je me souviens avoir lu que l'on peut montrer que la classification binaire LS-SVM est équivalente à la régression de crête sur les étiquettes -1,1, leur formulation est la même.

— Firebug

Pensez que vous pourriez avoir raison sur ce point

— tdc