J'ai découvert qu'Imagenet et d'autres grands réseaux CNN utilisent des couches de normalisation de réponse locale. Cependant, je ne peux pas trouver autant d'informations à leur sujet. Quelle est leur importance et quand doivent-ils être utilisés?
De http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers :
"La couche de normalisation de la réponse locale effectue une sorte d '" inhibition latérale "en normalisant les régions d'entrée locales. En mode ACROSS_CHANNELS, les régions locales s'étendent sur des canaux proches, mais n'ont pas d'étendue spatiale (c'est-à-dire qu'elles ont une forme taille locale x 1 x 1). En mode WITHIN_CHANNEL, les régions locales s'étendent dans l'espace, mais se trouvent dans des canaux distincts (c'est-à-dire qu'elles ont la forme 1 x taille locale x taille locale). Chaque valeur d'entrée est divisée par (1+ (α / n) ∑ix2i) β, où n est la taille de chaque région locale et la somme est prise sur la région centrée sur cette valeur (un remplissage nul est ajouté si nécessaire). "
Modifier:
Il semble que ces types de couches ont un impact minimal et ne sont plus utilisées. Fondamentalement, leur rôle a été minimisé par d’autres techniques de régularisation (telles que l’abandon et la normalisation par lots), de meilleures initialisations et des méthodes de formation. Voir ma réponse ci-dessous pour plus de détails.