Combien de paramètres y a-t-il dans une couche de réseau neuronal récurrent (RNN)?

Le titre dit tout - combien de paramètres entraînables y a-t-il dans une couche GRU? Ce type de question revient souvent lorsque l'on tente de comparer des modèles de différents types de couches RNN, tels que les unités de mémoire à court terme (LSTM) vs GRU, en termes de performances par paramètre. Étant donné qu'un plus grand nombre de paramètres entraînables augmentera généralement la capacité d'apprentissage du réseau, la comparaison de modèles alternatifs sur une base par paramètre est une comparaison de pommes à pommes de l'efficacité relative des GRU et des LSTM.

neural-networks rnn gru

— Sycorax dit de réintégrer Monica
source

Selon Rahul Dey et Fathi M. Salem, " Gate-Variants of Gated Recurrent Unit (GRU) Neural Networks ":

... le nombre total de paramètres dans le GRU RNN est égal à $3 \times (n^2 + nm + n)$ .

où $m$ est la dimension d'entrée et $n$ est la dimension de sortie. Cela est dû au fait qu'il existe trois ensembles d'opérations nécessitant des matrices de poids de ces tailles.

— Sycorax dit de réintégrer Monica
source