Pour autant que je le comprends, la norme de lot normalise toutes les caractéristiques d'entrée d'une couche à une distribution normale unitaire, . La moyenne et la variance μ , σ 2 sont estimées en mesurant leurs valeurs pour le mini-lot actuel.
Après la normalisation, les entrées sont mises à l'échelle et décalées par des valeurs scalaires:
(Corrigez-moi si je me trompe ici - c'est là que je commence à devenir un peu incertain.)
et β sont des valeurs scalaires et il y en a une paire pour chaque couche normalisée par lot. Ils sont appris avec les poids en utilisant backprop et SGD.
Ma question est, ces paramètres ne sont-ils pas redondants parce que les entrées peuvent être mises à l'échelle et décalées de quelque façon que ce soit par les poids dans la couche elle-même. En d'autres termes, si
et
puis
Quel est donc l'intérêt de les ajouter du réseau est déjà capable d'apprendre l'échelle et le changement? Ou suis-je totalement incompréhensible?