Structure du réseau neuronal récurrent (LSTM, GRU)

10

J'essaie de comprendre l'architecture des RNN. J'ai trouvé ce tutoriel qui a été très utile: http://colah.github.io/posts/2015-08-Understanding-LSTMs/

Surtout cette image:

Comment cela s'intègre-t-il dans un réseau à action directe? Cette image est-elle juste un autre nœud dans chaque couche?

neural-networks lstm

— Adam12344
source

Ou est-ce à quoi ressemble chaque neurone?

— Adam12344

8

$h_t$ $t$ $x_t$ $h_{t-1}$

$h_t$

— Felipefg
source

h_{t}

$h_t$

c_{t}

$c_t$

x_{t}

$x_t$

6

Dans votre image A est une seule couche cachée avec un seul neurone caché. De gauche à droite est l'axe du temps, et en bas, vous recevez une entrée à chaque fois. Au sommet, le réseau pourrait être encore élargi en ajoutant des couches.

Si vous dépliez ce réseau dans le temps, comme le montre visuellement votre image (de gauche à droite, l'axe du temps est déplié), vous obtiendrez un réseau à action directe avec T (quantité totale de pas de temps) couches cachées contenant chacune un nœud unique (neurone) tel que dessiné dans le bloc A du milieu.

J'espère que ça répond à ta question.

— Sjoerd
source

3

Je voudrais expliquer ce schéma simple dans un contexte relativement compliqué: mécanisme d'attention dans le décodeur du modèle seq2seq.

$h_0$ $h_{k-1}$ $x_i$ . J'illustre votre problème en utilisant ceci parce que tous les états du pas de temps sont enregistrés pour le mécanisme d'attention plutôt que simplement jetés uniquement pour obtenir le dernier. Il s'agit d'un seul neurone et est considéré comme une couche (plusieurs couches peuvent être empilées pour former par exemple un codeur bidirectionnel dans certains modèles seq2seq pour extraire plus d'informations abstraites dans les couches supérieures).

Il encode ensuite la phrase (avec les mots L et chacun représenté comme un vecteur de la forme: embedding_dimention * 1) dans une liste de tenseurs L (chacun de la forme: num_hidden / num_units * 1). Et l'état passé au décodeur n'est que le dernier vecteur de l'incorporation de la phrase de la même forme de chaque élément de la liste.

Source de l'image: mécanisme d'attention

— Lerner Zhang
source