Structure du réseau neuronal récurrent (LSTM, GRU)


Réponses:


8

httXtht-1

ht


htctXt

6

Dans votre image A est une seule couche cachée avec un seul neurone caché. De gauche à droite est l'axe du temps, et en bas, vous recevez une entrée à chaque fois. Au sommet, le réseau pourrait être encore élargi en ajoutant des couches.

Si vous dépliez ce réseau dans le temps, comme le montre visuellement votre image (de gauche à droite, l'axe du temps est déplié), vous obtiendrez un réseau à action directe avec T (quantité totale de pas de temps) couches cachées contenant chacune un nœud unique (neurone) tel que dessiné dans le bloc A du milieu.

J'espère que ça répond à ta question.


3

Je voudrais expliquer ce schéma simple dans un contexte relativement compliqué: mécanisme d'attention dans le décodeur du modèle seq2seq.

h0hk-1Xje. J'illustre votre problème en utilisant ceci parce que tous les états du pas de temps sont enregistrés pour le mécanisme d'attention plutôt que simplement jetés uniquement pour obtenir le dernier. Il s'agit d'un seul neurone et est considéré comme une couche (plusieurs couches peuvent être empilées pour former par exemple un codeur bidirectionnel dans certains modèles seq2seq pour extraire plus d'informations abstraites dans les couches supérieures).

Il encode ensuite la phrase (avec les mots L et chacun représenté comme un vecteur de la forme: embedding_dimention * 1) dans une liste de tenseurs L (chacun de la forme: num_hidden / num_units * 1). Et l'état passé au décodeur n'est que le dernier vecteur de l'incorporation de la phrase de la même forme de chaque élément de la liste.

entrez la description de l'image ici
Source de l'image: mécanisme d'attention

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.