Lors de l'initialisation des poids de connexion dans un réseau de neurones à action directe, il est important de les initialiser de manière aléatoire pour éviter toute symétrie que l'algorithme d'apprentissage ne serait pas en mesure de briser.
La recommandation que j'ai vue à divers endroits (par exemple dans le tutoriel MNIST de TensorFlow ) est d'utiliser la distribution normale tronquée en utilisant un écart-type de , où est le nombre d'entrées dans le une couche de neurones donnée.
Je crois que la formule d'écart type garantit que les dégradés rétropropagés ne se dissolvent pas ou ne s'amplifient pas trop rapidement. Mais je ne sais pas pourquoi nous utilisons une distribution normale tronquée par opposition à une distribution normale régulière. Est-ce pour éviter les poids aberrants rares?