Quand la régression logistique est-elle appropriée?

J'apprends actuellement moi-même comment faire la classification, et plus précisément, j'examine trois méthodes: les machines à vecteurs de support, les réseaux de neurones et la régression logistique. Ce que j'essaie de comprendre, c'est pourquoi la régression logistique fonctionnerait mieux que les deux autres.

D'après ma compréhension de la régression logistique, l'idée est d'adapter une fonction logistique à l'ensemble des données. Donc, si mes données sont binaires, toutes mes données avec l'étiquette 0 doivent être mappées à la valeur 0 (ou à proximité), et toutes mes données avec la valeur 1 doivent être mappées à la valeur 1 (ou à proximité). Maintenant, parce que la fonction logistique est continue et lisse, effectuer cette régression nécessite toutes mes données pour s'adapter à la courbe; il n'y a pas de plus grande importance appliquée aux points de données près de la frontière de décision, et tous les points de données contribuent à la perte de montants différents.

Cependant, avec les machines à vecteurs de support et les réseaux de neurones, seuls les points de données proches de la frontière de décision sont importants; tant qu'un point de données reste du même côté de la frontière de décision, il contribuera à la même perte.

Par conséquent, pourquoi la régression logistique surpasserait-elle jamais les machines à vecteurs de support ou les réseaux de neurones, étant donné qu'elle "gaspille des ressources" en essayant d'ajuster une courbe à beaucoup de données sans importance (facilement classifiables), plutôt que de se concentrer uniquement sur les données difficiles autour de la décision frontière?

— Karnivaurus
source

LR vous donnera des estimations de probabilité tandis que SVM donne des estimations binaires. Cela rend également LR utile lorsqu'il n'y a pas d'hyperplan de séparation entre les classes. De plus, vous devez prendre en considération la complexité des algorithmes et d'autres caractéristiques comme le nombre de paramètres et la sensibilité.

— Bar

Connexes: stats.stackexchange.com/questions/127042/…

— Sycorax dit de rétablir Monica

Réponses:

$(Y=1|X)$ pour des arguments convaincants en faveur du raisonnement probabiliste.

$Y$

Certains analystes pensent que la régression logistique suppose la linéarité des effets des prédicteurs sur l'échelle des cotes logarithmiques. Cela n'était vrai que lorsque DR Cox a inventé le modèle logistique en 1958 à une époque où l'informatique n'était pas disponible pour étendre le modèle à l'aide d'outils tels que les splines de régression. La seule véritable faiblesse de la régression logistique est que vous devez spécifier les interactions que vous souhaitez autoriser dans le modèle. Pour la plupart des ensembles de données, cela devient une force car les effets principaux additifs sont généralement des prédicteurs beaucoup plus forts que les interactions, et les méthodes d'apprentissage automatique qui accordent une priorité égale aux interactions peuvent être instables, difficiles à interpréter et nécessitent des tailles d'échantillon plus grandes que la régression logistique pour prédire bien.

— Frank Harrell
source

+1. Pour être honnête, je n'ai jamais trouvé les SVM utiles. Ils sont sexy mais ils sont lents à s'entraîner et à marquer - selon mon expérience - et ont beaucoup de choix avec lesquels vous devez jouer (y compris le noyau). Réseaux de neurones que j'ai trouvé utiles, mais aussi beaucoup d'options et d'ajustements. La régression logistique est simple et donne des résultats raisonnablement bien calibrés dès le départ. L'étalonnage est important pour une utilisation réelle. Bien sûr, l'inconvénient est qu'il est linéaire, il ne peut donc pas s'adapter aux données groupées, aux données grumeleuses ainsi qu'à d'autres méthodes comme la forêt aléatoire.

— Wayne

Très bonne réponse. Soit dit en passant, vous serez peut-être intéressé de savoir que, récemment, les apprenants-machine sont parvenus à adapter leurs méthodes de fantaisie à des cadres traditionnels tels que la probabilité maximale pénalisée - et il s'avère que les méthodes de fantaisie fonctionnent mieux lorsque cela est fait. Prenons XGBoost, sans doute l'algorithme de renforcement d'ensemble d'arbres le plus efficace qui existe. Le calcul est ici: xgboost.readthedocs.io/en/latest/model.html . Cela devrait sembler assez familier à un statisticien traditionnel, et vous pouvez adapter des modèles à de nombreuses fins statistiques courantes avec les fonctions de perte habituelles.

— Paul

Vous avez raison, la régression logistique fait souvent mal en tant que classificateur (surtout par rapport à d'autres algorithmes). Cependant, cela ne signifie pas que la régression logistique doit être oubliée et jamais étudiée car elle présente deux grands avantages:

Résultats probabilistes. Frank Harrell (+1) l'a très bien expliqué dans sa réponse.
$Y=1$ $X_1 = 1$ $2$ $X_2,...X_p$

— TrynnaDoStat
source

Et les performances apparemment médiocres en tant que classificateur sont le résultat de l'utilisation d'un score de précision incorrect, pas un problème inhérent à la régression logistique.

— Frank Harrell

@FrankHarrell: J'ai fait quelques expériences récemment et je dirais que la régression logistique ajuste les données avec beaucoup moins de liberté que les autres méthodes. Vous devez ajouter des interactions et faire plus d'ingénierie des fonctionnalités pour correspondre, par exemple, à la flexibilité d'une forêt aléatoire ou d'un GAM. (Bien sûr, la flexibilité est la corde raide qui traverse l'abîme du sur-ajustement.)

— Wayne

@wayne Cette moindre liberté, comme vous le dites, est très utile dans de nombreux cas, car elle offre de la stabilité

— rapaio

Non seulement l'hypothèse que les termes d'interaction sont moins importants que les termes additifs ajoute de la flexibilité, mais vous pouvez assouplir les hypothèses de plusieurs manières. J'ajoute plus à ce sujet dans ma réponse d'origine.

— Frank Harrell

@rapaio: Oui, la flexibilité est dangereuse, à la fois en termes de sur-ajustement, mais aussi d'autres manières. C'est un problème de domaine / d'utilisation: vos données sont-elles bruyantes, ou s'agit-il vraiment de "grumeaux / clusters" si je peux utiliser ce terme?

— Wayne