Une mémoire à long terme (LSTM) est une architecture de réseau neuronal qui contient des blocs NN récurrents qui peuvent mémoriser une valeur pendant une durée arbitraire.
J'utilise un réseau lstm et feed-forward pour classer le texte. Je convertis le texte en vecteurs uniques et les insère dans le lstm afin de pouvoir le résumer en une seule représentation. Ensuite, je le nourris à l'autre réseau. Mais comment former le lstm? Je veux juste classer le texte …
J'ai une connaissance de base du fonctionnement des RNN (et en particulier des unités LSTM). J'ai une idée picturale de l'architecture d'une unité LSTM, c'est-à-dire une cellule et quelques portes, qui régulent le flux de valeurs. Cependant, apparemment, je n'ai pas complètement compris comment LSTM résout le problème des "gradients …
Les RNN sont remarquablement bons pour capturer la dépendance temporelle des données séquentielles. Cependant, que se passe-t-il lorsque les éléments de séquence ne sont pas également espacés dans le temps? Par exemple, la première entrée dans la cellule LSTM se produit le lundi, puis aucune donnée du mardi au jeudi, …
Le LSTM dans le code Keras suivant input_t = Input((4, 1)) output_t = LSTM(1)(input_t) model = Model(inputs=input_t, outputs=output_t) print(model.summary()) peut être représenté comme Je comprends que lorsque nous appelons model.predict(np.array([[[1],[2],[3],[4]]]))l'unité (uniquement) LSTM traite d'abord le vecteur [1], puis [2] plus le retour de l'entrée précédente et ainsi de suite jusqu'au …
Pour une tâche de traitement du langage naturel (NLP), on utilise souvent des vecteurs word2vec comme incorporation pour les mots. Cependant, il peut y avoir de nombreux mots inconnus qui ne sont pas capturés par les vecteurs word2vec simplement parce que ces mots ne sont pas assez souvent vus dans …
J'essaie de comprendre l'architecture des RNN. J'ai trouvé ce tutoriel qui a été très utile: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Surtout cette image: Comment cela s'intègre-t-il dans un réseau à action directe? Cette image est-elle juste un autre nœud dans chaque couche?
Je me demandais quelle était la meilleure façon d'initialiser l'état des LSTM. Actuellement, je viens de l'initialiser à tous les zéros. Je ne trouve vraiment rien en ligne sur la façon de l'initialiser. Une chose que je pensais faire était de faire de l'état initial un paramètre entraînable. Aucun conseil?
Comme beaucoup d'autres, j'ai trouvé les ressources ici et ici extrêmement utiles pour comprendre les cellules LSTM. Je suis convaincu que je comprends comment les valeurs circulent et sont mises à jour, et je suis assez confiant pour ajouter les "connexions judas" mentionnées, etc. également. Dans mon exemple, j'ai à …
Le problème auquel je fais face est la prévision des valeurs de séries chronologiques. Je regarde une série chronologique à la fois et sur la base par exemple de 15% des données d'entrée, je voudrais prédire ses valeurs futures. Jusqu'à présent, je suis tombé sur deux modèles: LSTM (mémoire à …
Supposons la séquence unidimensionnelle suivante: A, B, C, Z, B, B, #, C, C, C, V, $, W, A, % ... Les lettres A, B, C, ..ici représentent des événements «ordinaires». Les symboles #, $, %, ...ici représentent des événements «spéciaux» L'espacement temporel entre tous les événements est non uniforme …
Je ne suis pas sûr de ce que je comprends de la documentation officielle, qui dit: Renvoie: Une paire (sorties, état) où: outputs: Le tenseur de sortie RNN. Si time_major == False( par défaut), ce sera une forme Tensor: [batch_size, max_time, cell.output_size]. Si time_major == True, ce sera une forme …
Mon réseau neuronal récurrent (LSTM, resp. GRU) se comporte d'une manière que je ne peux pas expliquer. L'entraînement commence et il s'entraîne bien (les résultats semblent assez bons) lorsque la précision diminue soudainement (et que la perte augmente rapidement) - à la fois les mesures d'entraînement et de test. Parfois, …
Supposons que j'alimente une matrice 2D de forme (99,13) en entrée d'une couche LSTM. J'ai n nombre de fichiers, où chacun contient (99,13) des vecteurs de taille. J'ai décidé de considérer 13 comme le nombre de fonctionnalités et 99 comme les pas de temps. (Lors de l'implémentation avec Keras, j'ai …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.