Je lisais le papier de normalisation par lots (BN) (1) et je ne comprenais pas la nécessité d'utiliser des moyennes mobiles pour suivre la précision du modèle et même si j'acceptais que c'était la bonne chose à faire, je ne comprends pas ce qu'ils font exactement.
À ma connaissance (ce qui peut être faux), le document mentionne qu'il utilise les statistiques de population plutôt que les mini-lots, statistiques une fois que le modèle a terminé sa formation. Après avoir discuté d'estimations impartiales (cela me semble tangentiel et je ne comprends pas pourquoi cela en parle), ils vont dire:
En utilisant des moyennes mobiles à la place, nous suivons la précision du modèle pendant son entraînement.
C'est la partie qui m'embrouille. Pourquoi font-ils des moyennes mobiles pour estimer la précision du modèle et sur quel ensemble de données?
Habituellement, ce que les gens font pour estimer la généralisation de leur modèle, ils ne font que suivre l'erreur de validation de leur modèle (et éventuellement arrêter tôt leur descente de gradient pour se régulariser). Cependant, il semble que la normalisation par lots fasse quelque chose de complètement différent. Quelqu'un peut-il clarifier quoi et pourquoi il fait quelque chose de différent?
1 : Ioffe S. et Szegedy C. (2015),
«Batch Normalisation: Accelerating Deep Network Training by Reducing Internal Covariate Shift»,
Actes de la 32e Conférence internationale sur l'apprentissage automatique , Lille, France, 2015.
Journal of Machine Learning Research: W&CP volume 37