Donc, récemment, il y a un papier de normalisation des calques . Il existe également une implémentation de celui-ci sur Keras.
Mais je me souviens qu'il y a des articles intitulés Recurrent Batch Normalization (Cooijmans, 2016) et Batch Normalized Recurrent Neural Networks (Laurent, 2015). Quelle est la différence entre ces trois?
Il y a cette section de travail connexe que je ne comprends pas:
La normalisation des lots a été précédemment étendue aux réseaux de neurones récurrents [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016]. Les travaux précédents [Cooijmans et al., 2016] suggèrent que les meilleures performances de normalisation récurrente des lots sont obtenues en conservant des statistiques de normalisation indépendantes pour chaque pas de temps. Les auteurs montrent que l'initialisation du paramètre de gain dans la couche de normalisation récurrente par lots à 0,1 fait une différence significative dans les performances finales du modèle. Notre travail est également lié à la normalisation du poids [Salimans et Kingma, 2016]. Dans la normalisation du poids, au lieu de la variance, la norme L2 des poids entrants est utilisée pour normaliser les entrées sommées d'un neurone. L'application de la normalisation du poids ou de la normalisation par lots à l'aide des statistiques attendues équivaut à avoir un paramétrage différent du réseau neuronal à action directe d'origine. La re-paramétrisation dans le réseau ReLU a été étudiée dans le SGD pathnormalisé [Neyshabur et al., 2015]. Notre méthode de normalisation de couche proposée, cependant, n'est pas une re-paramétrisation du réseau neuronal d'origine. Le modèle normalisé de couche a donc des propriétés d'invariance différentes des autres méthodes , que nous étudierons dans la section suivante