La normalisation par lots est décrite dans cet article comme une normalisation de l'entrée d'une fonction d'activation avec des variables d'échelle et de décalage et . Cet article décrit principalement l'utilisation de la fonction d'activation sigmoïde, ce qui est logique. Cependant, il me semble que l'introduction d'une entrée de la distribution normalisée produite par la normalisation par lots dans une fonction d'activation ReLU de est risqué si n'apprend pas à déplacer la plupart des entrées au-delà de 0 de sorte que le ReLU ne perd pas les informations d'entrée. Autrement dit, si l'entrée de la ReLU était simplement normalisée, nous perdrions beaucoup de nos informations en dessous de 0. Y a-t-il une garantie ou une initialisation dequi garantira que nous ne perdons pas ces informations? Suis-je en train de manquer quelque chose avec le fonctionnement de BN et ReLU?