J'ai observé que Caffe (un cadre d'apprentissage en profondeur) a utilisé la couche de perte Softmax SoftmaxWithLoss
comme couche de sortie pour la plupart des échantillons de modèle .
Pour autant que je sache, la couche de perte Softmax est la combinaison de la couche de perte logistique multinomiale et de la couche Softmax .
De Caffe, ils ont dit que
Le calcul du gradient de la couche de perte Softmax est plus stable numériquement
Cependant, cette explication n'est pas la réponse que je veux, l'explication consiste simplement à comparer la combinaison de la couche de perte logistique multinomiale et de la couche de perte Softmax au lieu de couche par couche. Mais pas comparer avec un autre type de fonction de perte.
Cependant, j'aimerais en savoir plus sur les différences / avantages / inconvénients de ces 3 fonctions d'erreur qui sont la perte logistique multinomiale , l' entropie croisée (CE) et l' erreur carrée (SE) dans une perspective d'apprentissage supervisé. Des articles de soutien?
y-t
. willamette.edu/~gorr/classes/cs449/classify.html