Vladimir Vapnik (co-inventeur de la Support Vector Machine et principal théoricien de l'apprentissage informatique) préconise de toujours essayer de résoudre le problème directement, plutôt que de résoudre un problème plus général, puis de rejeter certaines des informations fournies par la solution. Je suis généralement d'accord avec cela, donc je suggérerais une approche de classification pour le problème tel qu'il se pose actuellement. La raison en est que si nous voulons uniquement classer un projet comme rentable ou non rentable, alors nous ne sommes vraiment intéressés que par la région où la rentabilité est proche de zéro. Si nous formons un modèle de classification, c'est là que nous concentrerons nos ressources de modélisation. Si nous adoptons une approche de régression, nous gaspillons peut-être des ressources de modélisation pour apporter de petites améliorations de performances pour des projets qui seront soit très rentables soit non rentables, potentiellement au détriment de l'amélioration des performances des projets limites.
Maintenant, la raison pour laquelle j'ai dit "tel qu'il se pose actuellement", c'est que très peu de problèmes impliquent en fait une classification binaire simple et dure (la reconnaissance optique des caractères en serait probablement une). Généralement, différents types de classification erronée ont des coûts différents, ou les fréquences de classe opérationnelle peuvent être inconnues, ou variables, etc. Dans de tels cas, il est préférable d'avoir un classificateur probabiliste, comme la régression logistique, plutôt qu'un SVM. S'il me semble que pour une application financière, nous ferons mieux si nous connaissons la probabilité que le projet soit rentable, et comment il sera ou non rentable. Nous pouvons très bien être disposés à financer un projet qui a une petite chance d'être rentable, mais massivement rentable s'il réussit, mais pas un projet qui est presque garanti pour réussir, mais qui aura une marge de profit si petite que nous le serions mieux vaut simplement mettre l'argent dans un compte d'épargne.
Frank et Omri374 ont donc tous les deux raison! (+1; o)
EDIT: Pour clarifier pourquoi la régression n'est pas toujours une bonne approche pour résoudre un problème de classification, voici un exemple. Supposons que nous ayons trois projets, avec une rentabilité , et pour chaque projet, nous avons une variable explicative qui, nous l'espérons, indique la rentabilité, . Si nous adoptons une approche de régression (avec décalage), nous obtenons les coefficients de régression et (à condition que j'aie fait les sommes correctement!). Le modèle prédit ensuite les projets comme générant des bénéfices , ety⃗ =(−$1000,+$1,+$1000)x⃗ =(1,2,10)β0=−800.8288β1=184.8836y^1≈−$616y^2≈−$431y^3≈$1048. Notez que le deuxième projet est incorrectement prédit comme étant non rentable. Si en revanche, nous adoptons une approche de classification, et régressons plutôt sur , nous obtenons des coefficients de régression et , qui marque les trois projets comme suit: , et . Une approche de classification classe donc correctement le projet 1 comme non rentable et les deux autres comme étant rentables.t⃗ =2∗(y>=0)−1β0=−0.2603β1=0.1370t^1=−0.1233t^2=0.0137t^3=1.1096
La raison pour laquelle cela se produit est qu'une approche de régression s'efforce également de minimiser la somme des erreurs quadratiques pour chacun des points de données. Dans ce cas, une SSE inférieure est obtenue en permettant au projet deux de tomber du mauvais côté de la frontière de décision, afin d'obtenir des erreurs plus faibles sur les deux autres points.
Frank a donc raison de dire qu'une approche de régression est probablement une bonne approche dans la pratique, mais si la classification est en fait l'objectif ultime, il y a des situations où elle peut mal fonctionner et une approche de classification fonctionnera mieux.