Une mémoire à long terme (LSTM) est une architecture de réseau neuronal qui contient des blocs NN récurrents qui peuvent mémoriser une valeur pendant une durée arbitraire.
Le LSTM a été inventé spécifiquement pour éviter le problème du gradient disparaissant. Il est supposé faire cela avec le carrousel à erreur constante (CEC), qui sur le diagramme ci-dessous (de Greff et al. ) Correspond à la boucle autour de la cellule . (source: deeplearning4j.org ) Et je comprends …
J'étudie les LSTM depuis un certain temps. Je comprends à un haut niveau comment tout fonctionne. Cependant, en les implémentant à l'aide de Tensorflow, j'ai remarqué que BasicLSTMCell nécessite un certain nombre d'unités (c'est-à-dire num_units) un paramètre. D'après cette explication très approfondie des LSTM, j'ai compris qu'une seule unité LSTM …
Ma perte d'entraînement diminue puis augmente à nouveau. C'est très bizarre. La perte de validation croisée suit la perte d'entraînement. Que se passe-t-il? J'ai deux LSTMS empilés comme suit (sur Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') Je l'entraîne pour 100 …
Quels sont les avantages, pourquoi utiliserait-on plusieurs LSTM, empilés côte à côte, dans un réseau profond? J'utilise un LSTM pour représenter une séquence d'entrées en tant qu'entrée unique. Donc, une fois que j'ai cette représentation unique - pourquoi la repasserais-je? Je pose la question parce que je l'ai vu dans …
Les mécanismes d'attention ont été utilisés dans divers articles sur le Deep Learning au cours des dernières années. Ilya Sutskever, responsable de la recherche chez Open AI, les a félicités avec enthousiasme: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello de l'Université Purdue a déclaré que les RNN et les LSTM devraient être abandonnés au …
J'essaie d'utiliser l'exemple décrit dans la documentation Keras nommée "LSTM empilé pour la classification de séquence" (voir le code ci-dessous) et input_shapeje ne peux pas comprendre le paramètre dans le contexte de mes données. J'ai en entrée une matrice de séquences de 25 caractères possibles encodés en nombres entiers pour …
J'essaie de comprendre différentes architectures de réseaux de neurones récurrents (RNN) à appliquer aux données de séries chronologiques et je suis un peu confus avec les différents noms qui sont fréquemment utilisés lors de la description des RNN. La structure de la mémoire à court terme à long terme (LSTM) …
J'ai utilisé theeano pour expérimenter avec des LSTM et je me demandais quelles méthodes d'optimisation (SGD, Adagrad, Adadelta, RMSprop, Adam, etc.) fonctionnent le mieux pour les LSTM? Existe-t-il des documents de recherche sur ce sujet? De plus, la réponse dépend-elle du type d'application pour laquelle j'utilise le LSTM? Si c'est …
Je me suis récemment intéressé aux LSTM et j'ai été surpris d'apprendre que les poids sont partagés dans le temps. Je sais que si vous partagez les pondérations dans le temps, vos séquences temporelles d'entrée peuvent être de longueur variable. Avec des poids partagés, vous avez beaucoup moins de paramètres …
J'ai un problème très simple mais je ne trouve pas le bon outil pour le résoudre. J'ai une séquence de vecteurs de même longueur. Maintenant, je voudrais former LSTM RNN sur un échantillon de train de ces séquences et ensuite le faire pour prédire une nouvelle séquence de vecteurs de …
Je passe par le blog suivant sur le réseau de neurones LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ L'auteur remodèle le vecteur d'entrée X en [échantillons, pas de temps, caractéristiques] pour différentes configurations de LSTM. L'auteur écrit En effet, les séquences de lettres sont des pas de temps d'une caractéristique plutôt qu'un pas de temps …
Je cherche à utiliser une version LSTM ( mémoire à court terme à long terme ) d'un réseau neuronal récurrent (RNN) pour modéliser les données de la série temporelle. À mesure que la longueur de séquence des données augmente, la complexité du réseau augmente. Je suis donc curieux de savoir …
J'essaie de comprendre l'application de haut niveau des RNN à l'étiquetage des séquences via (entre autres) l'article de Graves de 2005 sur la classification des phonèmes. Pour résumer le problème: nous avons un grand ensemble de formation composé de fichiers audio (d'entrée) de phrases simples et (de sortie) d'heures de …
Comment former le modèle LSTM sur plusieurs données de séries chronologiques? Cas d'utilisation: J'ai des ventes hebdomadaires de 20 000 agents depuis 5 ans. Besoin de prévoir les ventes hebdomadaires à venir pour chaque agent. Dois-je suivre une technique de traitement par lots - prendre un agent à la fois, …
Je modélise 15000 tweets pour la prédiction des sentiments en utilisant un LSTM monocouche avec 128 unités cachées en utilisant une représentation de type word2vec avec 80 dimensions. J'obtiens une précision de descente (38% avec aléatoire = 20%) après 1 époque. Plus l'entraînement fait baisser la précision de validation à …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.