RNN apprenant les ondes sinusoïdales de différentes fréquences

Comme échauffement avec des réseaux de neurones récurrents, j'essaie de prédire une onde sinusoïdale à partir d'une autre onde sinusoïdale d'une autre fréquence.

Mon modèle est un simple RNN, sa passe avant peut s'exprimer comme suit:

\begin{aligned} r_{t} & = σ (W_{je n} \cdot X_{t} + W_{r e c} \cdot r_{t - 1})) \\ z_{t} & = W_{o u t} \cdot r_{t} \end{aligned}

$\begin{aligned} r_t &= \sigma(W_{in} \cdot x_t + W_{rec} \cdot r_{t-1}))\\ z_t &= W_{out} \cdot r_t \end{aligned}$ où est la fonction sigmoïde.

σ

$\sigma$

Lorsque l'entrée et la sortie attendues sont deux ondes sinusoïdales de même fréquence mais avec (éventuellement) un déphasage, le modèle est capable de converger correctement vers une approximation raisonnable.

Cependant, dans le cas suivant, le modèle converge vers un minimum local et prédit zéro tout le temps:

entrée: $x = sin(t)$
sortie attendue: $y = sin(\frac{t}{2})$

Voici ce que le réseau prédit lorsqu'il reçoit la séquence d'entrée complète après 10 époques de formation, en utilisant des mini-lots de taille 16, un taux d'apprentissage de 0,01, une longueur de séquence de 16 et des couches cachées de taille 32:

Ce qui m'amène à penser que le réseau n'est pas en mesure d'apprendre à travers le temps et ne dépend que de l'entrée actuelle pour faire sa prédiction.

J'ai essayé d'ajuster le taux d'apprentissage, la longueur des séquences et la taille des couches cachées sans grand succès.

J'ai exactement le même problème avec un LSTM. Je ne veux pas croire que ces architectures sont si imparfaites, des indices sur ce que je fais mal?

J'utilise un paquetage rnn pour Torch, le code est dans un Gist .

— Simon
source

Vos données ne peuvent fondamentalement pas être apprises avec un RNN formé de cette façon. Votre contribution est $\sin(t)$ est $2\pi$ -périodique $\sin(t) = \sin(t+2\pi)$

mais votre cible $\sin(t/2)$ est $4\pi$ -périodique et $\sin(t/2) = -\sin(t+2\pi)$

Par conséquent, dans votre jeu de données, vous aurez des paires d'entrées identiques avec des sorties opposées. En termes d'erreur quadratique moyenne, cela signifie que la solution optimale est une fonction nulle.

Ce sont deux tranches de votre tracé où vous pouvez voir des entrées identiques mais des cibles opposées

— ChenM
source

Pour développer cette réponse, le problème est venu d'utiliser la même initialisation de rétroaction pour différentes entrées. J'ai résolu cela en faisant (au hasard) plus en avant qu'en arrière afin d'apprendre la séquence complète.

— Simon