J'apprends actuellement moi-même comment faire la classification, et plus précisément, j'examine trois méthodes: les machines à vecteurs de support, les réseaux de neurones et la régression logistique. Ce que j'essaie de comprendre, c'est pourquoi la régression logistique fonctionnerait mieux que les deux autres.
D'après ma compréhension de la régression logistique, l'idée est d'adapter une fonction logistique à l'ensemble des données. Donc, si mes données sont binaires, toutes mes données avec l'étiquette 0 doivent être mappées à la valeur 0 (ou à proximité), et toutes mes données avec la valeur 1 doivent être mappées à la valeur 1 (ou à proximité). Maintenant, parce que la fonction logistique est continue et lisse, effectuer cette régression nécessite toutes mes données pour s'adapter à la courbe; il n'y a pas de plus grande importance appliquée aux points de données près de la frontière de décision, et tous les points de données contribuent à la perte de montants différents.
Cependant, avec les machines à vecteurs de support et les réseaux de neurones, seuls les points de données proches de la frontière de décision sont importants; tant qu'un point de données reste du même côté de la frontière de décision, il contribuera à la même perte.
Par conséquent, pourquoi la régression logistique surpasserait-elle jamais les machines à vecteurs de support ou les réseaux de neurones, étant donné qu'elle "gaspille des ressources" en essayant d'ajuster une courbe à beaucoup de données sans importance (facilement classifiables), plutôt que de se concentrer uniquement sur les données difficiles autour de la décision frontière?