Dans le livre Deep Learning d' Ian Goodfellow , il est écrit que
Parfois, la fonction de perte dont nous nous soucions réellement (disons, erreur de classification) n'est pas celle qui peut être optimisée efficacement. Par exemple, la minimisation exacte de la perte 0-1 attendue est généralement insoluble (exponentielle dans la dimension d'entrée), même pour un classificateur linéaire. Dans de telles situations, on optimise généralement une fonction de perte de substitution à la place, qui agit comme un proxy mais présente des avantages.
Pourquoi la perte 0-1 est-elle insoluble ou comment est-elle exponentielle dans les dimensions d'entrée?