Ici, la réponse se réfère à des gradients de fuite et d'explosion qui ont été sigmoid
des fonctions d'activation similaires, mais, je suppose, Relu
ont un inconvénient et c'est sa valeur attendue. il n'y a pas de limitation pour la sortie du Relu
et donc sa valeur attendue n'est pas nulle. Je me souviens du temps avant que la popularité de Relu
ce tanh
n'était le plus populaire parmi les experts en apprentissage automatique sigmoid
. La raison en était que la valeur attendue de la tanh
était égale à zéro et qu'elle aidait l'apprentissage dans les couches plus profondes à être plus rapide dans un réseau neuronal. Relu
n'a pas cette caractéristique, mais pourquoi cela fonctionne si bien si nous mettons de côté son avantage dérivé. De plus, je suppose que le dérivé peut également être affecté. Parce que les activations (sortie deRelu
) participent au calcul des règles de mise à jour.
CNN
normalisation typique, la sortie du relu
n'est pas courante? Au moins, je n'ai jamais vu ça.