Le titre dit tout - combien de paramètres entraînables y a-t-il dans une couche GRU? Ce type de question revient souvent lorsque l'on tente de comparer des modèles de différents types de couches RNN, tels que les unités de mémoire à court terme (LSTM) vs GRU, en termes de performances par paramètre. Étant donné qu'un plus grand nombre de paramètres entraînables augmentera généralement la capacité d'apprentissage du réseau, la comparaison de modèles alternatifs sur une base par paramètre est une comparaison de pommes à pommes de l'efficacité relative des GRU et des LSTM.