Dans certains tutoriels, j'ai trouvé qu'il était indiqué que l'initialisation du poids "Xavier" (article: Comprendre la difficulté de former des réseaux neuronaux profonds à action directe ) est un moyen efficace d'initialiser les poids des réseaux neuronaux.
Pour les couches entièrement connectées, il y avait une règle générale dans ces didacticiels:
où est la variance des poids pour une couche, initialisée avec une distribution normale et n i n , n o u t est la quantité de neurones dans le parent et dans la couche actuelle.
Existe-t-il des règles de base similaires pour les couches convolutives?
J'ai du mal à trouver ce qui serait le mieux pour initialiser les poids d'une couche convolutionnelle. Par exemple, dans une couche où la forme des poids est (5, 5, 3, 8)
, donc la taille du noyau est 5x5
, le filtrage de trois canaux d'entrée (entrée RVB) et la création de 8
cartes d'entités ... serait 3
considéré comme la quantité de neurones d'entrée? Ou plutôt 75 = 5*5*3
, parce que les entrées sont des 5x5
patchs pour chaque canal de couleur?
J'accepterais les deux, une réponse spécifique clarifiant le problème ou une réponse plus "générique" expliquant le processus général de recherche de la bonne initialisation des poids et de préférence reliant les sources.