Contexte d'introduction
Au sein d'un réseau neuronal convolutionnel, nous avons généralement une structure / un flux général qui ressemble à ceci:
- image d'entrée (c'est-à-dire un vecteur 2D
x
)
(La 1ère couche convolutionnelle (Conv1) commence ici ...)
- convoluez un ensemble de filtres (
w1
) le long de l'image 2D (c.-à-d. faites lesz1 = w1*x + b1
multiplications du produit scalaire), oùz1
est 3D etb1
est biais. - appliquer une fonction d'activation (par exemple ReLu) pour rendre
z1
non linéaire (par exemplea1 = ReLu(z1)
), oùa1
est 3D.
(La 2e couche convolutionnelle (Conv2) commence ici ...)
- convoluer un ensemble de filtres le long des activations nouvellement calculées (c.-à-d. faire les
z2 = w2*a1 + b2
multiplications des produits scalaires), oùz2
est 3D et etb2
est biais. - appliquer une fonction d'activation (par exemple ReLu) pour rendre
z2
non linéaire (par exemplea2 = ReLu(z2)
), oùa2
est 3D.
La question
La définition du terme «carte des caractéristiques» semble varier d'une littérature à l'autre. Concrètement:
- Pour la 1ère couche convolutionnelle, la "carte des entités" correspond-elle au vecteur d'entrée
x
, ou au produit scalaire de sortiez1
, ou aux activations de sortiea1
, ou au "processus" de conversionx
ena1
, ou autre chose? - De même, pour la 2e couche convolutionnelle, la «carte des caractéristiques» correspond-elle aux activations d'entrée
a1
, ou au produit scalaire de sortiez2
, ou à l'activation de sortiea2
, ou au «processus» de conversiona1
ena2
, ou autre chose?
De plus, est-il vrai que le terme «carte d'entités» est exactement le même que «carte d'activation»? (ou signifient-ils réellement deux choses différentes?)
Références supplémentaires:
Extraits de réseaux neuronaux et d'apprentissage en profondeur - Chapitre 6 :
* La nomenclature est utilisée librement ici. En particulier, j'utilise "carte des fonctionnalités" pour signifier non pas la fonction calculée par la couche convolutionnelle, mais plutôt l'activation des neurones cachés sortis de la couche. Ce type d'abus léger de la nomenclature est assez courant dans la littérature de recherche.
Extraits de Visualizing and Understanding Convolutional Networks par Matt Zeiler :
Dans cet article, nous introduisons une technique de visualisation qui révèle les stimuli d'entrée qui excitent les cartes de caractéristiques individuelles à n'importe quelle couche du modèle. [...] Notre approche, en revanche, fournit une vue non paramétrique de l'invariance, montrant quels modèles de l'ensemble d'apprentissage activent la carte des caractéristiques. [...] une opération de contraste local qui normalise les réponses sur les cartes d'entités. [...] Pour examiner une activation de convnet donnée, nous mettons à zéro toutes les autres activations de la couche et passons les cartes d'entités en entrée à la couche deconvnet attachée. [...] Le convnet utilise des non-linéarités relu, qui rectifient les cartes d'entités assurant ainsi que les cartes d'entités sont toujours positives. [...] Le convnet utilise des filtres appris pour convoluer les cartes d'entités de la couche précédente. [...] Fig. 6, ces visualisations sont des représentations précises du motif d'entrée qui stimule la carte d'entités donnée dans le modèle [...] lorsque les parties de l'image d'entrée d'origine correspondant au motif sont occluses, nous constatons une baisse d'activité distincte dans la carte d'entités. [...]
Remarques: introduit également les termes "carte d'entités" et "carte d'entités rectifiées" sur la figure 1.
Snippets de Stanford CS231n chapitre sur CNN :
[...] Un piège dangereux qui peut être facilement remarqué avec cette visualisation est que certaines cartes d'activation peuvent être toutes nulles pour de nombreuses entrées différentes, ce qui peut indiquer des filtres morts, et peut être un symptôme de taux d'apprentissage élevés [...] Activations d'apparence typique sur la première couche CONV (à gauche) et la cinquième couche CONV (à droite) d'un AlexNet formé regardant une photo d'un chat. Chaque boîte affiche une carte d'activation correspondant à un filtre. Notez que les activations sont rares (la plupart des valeurs sont nulles, dans cette visualisation représentée en noir) et principalement locales.
Extraits de A-Beginner's-Guide-To-Understanding-Convolutional-Neural-Networks
[...] Chaque emplacement unique sur le volume d'entrée produit un nombre. Après avoir fait glisser le filtre sur tous les emplacements, vous découvrirez que ce qui vous reste est un tableau de nombres 28 x 28 x 1, que nous appelons une carte d'activation ou une carte d'entités.
a1
,a2
etc.). Dans Conv2, je suppose que j'appelleraisa1
la carte d'activation d'entrée eta2
la carte d'activation de sortie. Dans Conv1, jex
l'image d'entrée eta1
la carte d'activation de sortie.