Le LSTM a été inventé spécifiquement pour éviter le problème du gradient disparaissant. Il est supposé faire cela avec le carrousel à erreur constante (CEC), qui sur le diagramme ci-dessous (de Greff et al. ) Correspond à la boucle autour de la cellule .
(source: deeplearning4j.org )
Et je comprends que cette partie peut être vue comme une sorte de fonction d'identité, donc la dérivée est une et le gradient reste constant.
Ce que je ne comprends pas, c'est comment cela ne disparaît pas à cause des autres fonctions d'activation. Les portes d’entrée, de sortie et d’oubli utilisent un sigmoïde, dont la dérivée est au plus égale à 0,25, et g et h étaient traditionnellement tanh . Comment la rétro-propagation à travers ceux-ci ne fait-elle pas disparaître le gradient?