La fonction de coût du réseau neuronal est , et il est prétendu être non convexe . Je ne comprends pas très bien pourquoi c'est ainsi, car je vois que cela ressemble beaucoup à la fonction de coût de la régression logistique, n'est-ce pas?
Si elle est non convexe, la dérivée du 2ème ordre , non?
MISE À JOUR
Grâce aux réponses ci-dessous ainsi qu'au commentaire de @ gung, j'ai compris votre argument. S'il n'y a aucune couche cachée, elle est convexe, tout comme la régression logistique. Mais s'il y a des couches cachées, en permutant les nœuds dans les couches cachées ainsi que les poids dans les connexions suivantes, nous pourrions avoir plusieurs solutions des poids résultant de la même perte.
Maintenant plus de questions,
1) Il existe plusieurs minima locaux, et certains d'entre eux doivent avoir la même valeur, car ils correspondent à certains nœuds et pondérations permutations, n'est-ce pas?
2) Si les nœuds et les poids ne sont pas permutés du tout, alors c'est convexe, non? Et les minima seront les minima globaux. Si oui, la réponse à 1) est que tous ces minima locaux auront la même valeur, n'est-ce pas?