Unité complète GRU
c~t= tanh( Wc[ Gr∗ ct - 1, xt] + bc)
gvous= σ( Wvous[ ct - 1, xt] + bvous)
gr= σ( Wr[ ct - 1, xt] + br)
ct= Gvous∗ c~t+ ( 1 - Gvous) * Ct - 1
unet= ct
Unité LSTM
c~t= tanh( Wc[ unt - 1, xt] + bc)
gvous= σ( Wvous[ unt - 1, xt] + bvous)
gF= σ( WF[ unt - 1, xt] + bF)
go= σ( Wo[ unt - 1, xt] + bo)
ct= Gvous∗ c~t+ GF∗ ct - 1
unet= Go* T a n h ( ct)
Comme on peut le voir dans les équations, les LSTM ont une porte de mise à jour et une porte d’oubli distinctes. Cela rend clairement les LSTM plus sophistiqués mais en même temps plus complexes. Il n'y a pas de moyen simple de décider lequel utiliser pour votre cas d'utilisation particulier. Vous devez toujours faire des essais et des erreurs pour tester les performances. Cependant, étant donné que les GRU sont plus simples que les LSTM, leur formation demande beaucoup moins de temps et est plus efficace.
Crédits: Andrew Ng