La fonction de coût d'entropie croisée pour un réseau de neurones est-elle convexe?


9

Mon professeur a prouvé que la dérivée seconde de l'entropie croisée est toujours positive, de sorte que la fonction de coût des réseaux de neurones utilisant l'entropie croisée est convexe. Est-ce vrai? Je suis assez confus à ce sujet car j'ai toujours appris que la fonction de coût de ANN n'est pas convexe. Quelqu'un peut-il confirmer cela? Merci beaucoup! http://z0rch.com/2014/06/05/cross-entropy-cost-function


5
Le lien est rompu?
ebb-earl-co

Réponses:


7

L'entropie croisée d'une famille exponentielle est toujours convexe. Donc, pour un réseau neuronal multicouche ayant des entréesX, poids wet sortie yet fonction de perte L

y2L

est convexe. cependant,

w2L

ne va pas être convexe pour les paramètres de la couche intermédiaire pour les raisons décrites par iamonaboat.


5

Ce que @ngiann a dit, et de manière informelle, si vous permutez les neurones dans la couche cachée et faites la même permutation sur les poids des couches adjacentes, alors la perte ne change pas.

Par conséquent, s'il existe un minimum global non nul en fonction des poids, il ne peut pas être unique car la permutation des poids donne un autre minimum global. La fonction n'est donc pas convexe.

La matrice de toutes les secondes dérivées partielles (la Hesse) n'est ni semi-définie positive, ni semi-définie négative. Puisque la dérivée seconde est une matrice, il est possible qu'elle ne soit ni l'une ni l'autre.


Si vous voulez être pédant plutôt qu'informel, la définition habituelle de la convexité de fonction ne nécessite pas un minimum global unique, donc la non-unicité des minima n'implique pas la non-convexité. Cependant, permuter les poids de cette manière ne change pas non plus la sortie réelle de votre réseau, donc même sans convexité, vous pouvez toujours avoir la propriété que votre fonction d'entraînement converge à la même fonction ~ à chaque fois. Je parie qu'il existe un moyen de briser cette symétrie pour ordonner les poids sans visser d'autres propriétés de la fonction de perte.
Andrew Wagner

3

Vous avez raison de penser que le problème d'optimisation ANN du problème d'entropie croisée sera non convexe. Remarque: nous parlons d'un réseau neuronal avec une fonction d'activation non linéaire au niveau de la couche cachée. Si vous n'utilisez pas de fonction d'activation non linéaire, votre ANN implémente une fonction linéaire et le problème devient convexe.

Ainsi, la raison pour laquelle l'optimisation de l'entropie croisée d'un ANN est non convexe est due à la paramétrisation sous-jacente de l'ANN. Si vous utilisez un réseau neuronal linéaire, vous pouvez le rendre convexe (il ressemblera essentiellement à une régression logistique qui est un problème convexe).

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.