Ici, la réponse se réfère à des gradients de fuite et d'explosion qui ont été sigmoiddes fonctions d'activation similaires, mais, je suppose, Reluont un inconvénient et c'est sa valeur attendue. il n'y a pas de limitation pour la sortie du Reluet donc sa valeur attendue n'est pas nulle. Je me souviens du temps avant que la popularité de Reluce tanhn'était le plus populaire parmi les experts en apprentissage automatique sigmoid. La raison en était que la valeur attendue de la tanhétait égale à zéro et qu'elle aidait l'apprentissage dans les couches plus profondes à être plus rapide dans un réseau neuronal. Relun'a pas cette caractéristique, mais pourquoi cela fonctionne si bien si nous mettons de côté son avantage dérivé. De plus, je suppose que le dérivé peut également être affecté. Parce que les activations (sortie deRelu) participent au calcul des règles de mise à jour.
CNNnormalisation typique, la sortie du relun'est pas courante? Au moins, je n'ai jamais vu ça.