La normalisation des lots et les ReLU sont tous deux des solutions au problème du gradient de fuite. Si nous utilisons la normalisation par lots, devrions-nous alors utiliser des sigmoïdes? Ou existe-t-il des fonctionnalités des ReLU qui en valent la peine, même lorsque vous utilisez batchnorm?
Je suppose que la normalisation effectuée dans batchnorm enverra zéro activations négatives. Cela signifie-t-il que batchnorm résout le problème "ReLU mort"?
Mais la nature continue du tanh et de la logistique reste attrayante. Si j'utilise batchnorm, est-ce que tanh fonctionnera mieux que ReLU?
Je suis sûr que la réponse dépend . Alors, qu'est-ce qui a fonctionné dans votre expérience et quelles sont les principales caractéristiques de votre application?