Supposons que nous remplaçons la fonction de perte de la régression logistique (qui est normalement log-vraisemblance) par le MSE. Autrement dit, le rapport de cotes logarithmique doit toujours être une fonction linéaire des paramètres, mais minimiser la somme des différences au carré entre la probabilité estimée et le résultat (codé 0/1):
et minimiser au lieu de .
Bien sûr, je comprends pourquoi la vraisemblance logarithmique est logique dans certaines hypothèses. Mais dans l'apprentissage automatique, où les hypothèses ne sont généralement pas formulées, quelle est la raison intuitive pour laquelle le MSE est complètement déraisonnable? (Ou y a-t-il des situations où MSE pourrait avoir un sens?).