Questions marquées «lstm»

Une mémoire à long terme (LSTM) est une architecture de réseau neuronal qui contient des blocs NN récurrents qui peuvent mémoriser une valeur pendant une durée arbitraire.


2
Pourquoi les RNN avec des unités LSTM peuvent-ils également souffrir de «gradients explosifs»?
J'ai une connaissance de base du fonctionnement des RNN (et en particulier des unités LSTM). J'ai une idée picturale de l'architecture d'une unité LSTM, c'est-à-dire une cellule et quelques portes, qui régulent le flux de valeurs. Cependant, apparemment, je n'ai pas complètement compris comment LSTM résout le problème des "gradients …


2
Différence entre un réseau de neurones LSTM à une unité et LSTM à 3 unités
Le LSTM dans le code Keras suivant input_t = Input((4, 1)) output_t = LSTM(1)(input_t) model = Model(inputs=input_t, outputs=output_t) print(model.summary()) peut être représenté comme Je comprends que lorsque nous appelons model.predict(np.array([[[1],[2],[3],[4]]]))l'unité (uniquement) LSTM traite d'abord le vecteur [1], puis [2] plus le retour de l'entrée précédente et ainsi de suite jusqu'au …


3
Structure du réseau neuronal récurrent (LSTM, GRU)
J'essaie de comprendre l'architecture des RNN. J'ai trouvé ce tutoriel qui a été très utile: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Surtout cette image: Comment cela s'intègre-t-il dans un réseau à action directe? Cette image est-elle juste un autre nœud dans chaque couche?

2
Meilleure façon d'initialiser l'état LSTM
Je me demandais quelle était la meilleure façon d'initialiser l'état des LSTM. Actuellement, je viens de l'initialiser à tous les zéros. Je ne trouve vraiment rien en ligne sur la façon de l'initialiser. Une chose que je pensais faire était de faire de l'état initial un paramètre entraînable. Aucun conseil?

1
Comprendre la topologie LSTM
Comme beaucoup d'autres, j'ai trouvé les ressources ici et ici extrêmement utiles pour comprendre les cellules LSTM. Je suis convaincu que je comprends comment les valeurs circulent et sont mises à jour, et je suis assez confiant pour ajouter les "connexions judas" mentionnées, etc. également. Dans mon exemple, j'ai à …



2
Quelle est la sortie d'un tf.nn.dynamic_rnn ()?
Je ne suis pas sûr de ce que je comprends de la documentation officielle, qui dit: Renvoie: Une paire (sorties, état) où: outputs: Le tenseur de sortie RNN. Si time_major == False( par défaut), ce sera une forme Tensor: [batch_size, max_time, cell.output_size]. Si time_major == True, ce sera une forme …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.