Comment le biais devrait-il être initialisé et régularisé?

J'ai lu quelques articles sur l'initialisation du noyau et de nombreux articles mentionnent qu'ils utilisent la régularisation L2 du noyau (souvent avec ). $\lambda = 0.0001$

Quelqu'un fait-il autre chose que d'initialiser le biais avec un zéro constant et de ne pas le régulariser?

Documents d'initialisation du noyau

Mishkin et Matas: tout ce dont vous avez besoin est une bonne init
Xavier Glorot et Yoshua Bengio: comprendre la difficulté de former des réseaux neuronaux profonds à action directe
He et al: Plonger profondément dans les redresseurs: dépasser les performances au niveau humain sur la classification ImageNet

neural-network

— Martin Thoma
source

À partir des notes de Stanford CS231N ( http://cs231n.github.io/neural-networks-2/ ):

Initialisation des biais. Il est possible et courant d'initialiser les biais à zéro, car la rupture de l'asymétrie est fournie par les petits nombres aléatoires dans les poids. Pour les non-linéarités ReLU, certaines personnes aiment utiliser une petite valeur constante telle que 0,01 pour tous les biais, car cela garantit que toutes les unités ReLU se déclenchent au début et donc obtiennent et propagent un certain gradient. Cependant, il n'est pas clair si cela fournit une amélioration cohérente (en fait, certains résultats semblent indiquer que cela fonctionne moins bien) et il est plus courant d'utiliser simplement une initialisation à biais 0.

Dans les LSTM, il est courant d'initialiser les biais à 1 - voir par exemple http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

— Lukas Biewald
source