Questions marquées «batch-normalization»

2
Comment et pourquoi la normalisation par lots utilise-t-elle des moyennes mobiles pour suivre la précision du modèle pendant son entraînement?
Je lisais le papier de normalisation par lots (BN) (1) et je ne comprenais pas la nécessité d'utiliser des moyennes mobiles pour suivre la précision du modèle et même si j'acceptais que c'était la bonne chose à faire, je ne comprends pas ce qu'ils font exactement. À ma connaissance (ce …

1
Pourquoi la norme de lot a-t-elle une échelle et un décalage apprenants?
Pour autant que je le comprends, la norme de lot normalise toutes les caractéristiques d'entrée d'une couche à une distribution normale unitaire, . La moyenne et la variance μ , σ 2 sont estimées en mesurant leurs valeurs pour le mini-lot actuel.N(μ=0,σ=1)N(μ=0,σ=1)\mathcal{N}(\mu=0,\sigma=1)μ,σ2μ,σ2\mu, \sigma^2 Après la normalisation, les entrées sont mises …

1
Forme matricielle de rétropropagation avec normalisation par lots
La normalisation des lots a été attribuée à des améliorations substantielles des performances dans les réseaux neuronaux profonds. De nombreux documents sur Internet montrent comment l'implémenter sur une base d'activation par activation. J'ai déjà implémenté backprop en utilisant l'algèbre matricielle, et étant donné que je travaille dans des langages de …

2
Existe-t-il des moyens de gérer le gradient de fuite pour les non-linéarités saturantes qui n'impliquent pas la normalisation par lots ou les unités ReLu?
Je voulais former un réseau avec des non-linéarités qui souffrent de la disparition (ou du problème de gradient explosif mais principalement de la disparition). Je sais que la méthode standard (actuelle) consiste à utiliser la normalisation par lots 1 [BN] 1 ou simplement à abandonner la non-linéarité et à utiliser …
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.