Comment puis-je calculer le terme delta d'une couche convolutionnelle, étant donné les termes delta et les poids de la couche convolutionnelle précédente?

J'essaie de former un réseau neuronal artificiel avec deux couches convolutionnelles (c1, c2) et deux couches cachées (c1, c2). J'utilise l'approche de rétropropagation standard. Dans la passe arrière, je calcule le terme d'erreur d'une couche (delta) en fonction de l'erreur de la couche précédente, des poids de la couche précédente et du gradient de l'activation par rapport à la fonction d'activation de la couche actuelle. Plus précisément, le delta de la couche l ressemble à ceci:

delta(l) = (w(l+1)' * delta(l+1)) * grad_f_a(l)

Je suis capable de calculer le gradient de c2, qui se connecte à une couche régulière. Je multiplie simplement les poids de h1 avec son delta. Ensuite, je remodèle cette matrice sous la forme de la sortie de c2, la multiplie par le gradient de la fonction d'activation et j'ai terminé.

J'ai maintenant le terme delta de c2 - qui est une matrice 4D de taille (featureMapSize, featureMapSize, filterNum, patternNum). De plus, j'ai les poids de c2, qui sont une matrice 3D de taille (filterSize, filterSize, filterNum).

Avec ces deux termes et le gradient d'activation de c1 je veux calculer le delta de c1.

Longue histoire courte:

Étant donné le terme delta d'une couche convolutionnelle précédente et les poids de cette couche, comment puis-je calculer le terme delta d'une couche convolutionnelle?

— cdwoelk
source

Je dérive d'abord l'erreur pour une couche convolutionnelle ci-dessous pour plus de simplicité pour un tableau unidimensionnel (entrée) qui peut facilement être transféré vers un multidimensionnel puis:

Nous supposons ici que les de longueur sont les entrées de la -ième conv. couche, est la taille du noyau des poids indiquant chaque poids par et la sortie est . On peut donc écrire (noter la somme de zéro): où $y^{l-1}$ $N$ $l-1$ $m$ $w$ $w_i$ $x^l$

X_{je}^{l} = \sum_{une = 0}^{m - 1} w_{une} y_{une + je}^{l - 1}

$x_i^l = \sum\limits_{a=0}^{m-1} w_a y_{a+i}^{l-1}$

y_{i}^{l} = f (x_{i}^{l})

$y_i^l = f(x_i^l)$ et

la fonction d'activation (par exemple sigmoïde). Avec cela à portée de main, nous pouvons maintenant considérer une fonction d'erreur

et la fonction d'erreur à la couche convolutionnelle (celle de votre couche précédente) donnée par

. Nous voulons maintenant découvrir la dépendance de l'erreur dans l'un des poids de la ou des couches précédentes:

f

$f$

E

$E$

\partial E / \partial y_{i}^{l}

$\partial E / \partial y_i^l$

où nous avons la somme de toutes les expressions dans lesquelles

se produit, qui sont

. Notez également que nous savons que le dernier terme provient du fait que

\frac{\partial E}{\partial w_{une}} = \sum_{une = 0}^{N - m} \frac{\partial E}{\partial X_{je}^{l}} \frac{\partial X_{je}^{l}}{\partial w_{une}} = \sum_{une = 0}^{N - m} \frac{\partial E}{\partial w_{une}} y_{je + une}^{l - 1}

$\begin{equation} \frac{\partial E}{\partial w_a} = \sum\limits_{a=0}^{N-m} \frac{\partial E}{\partial x_i^l} \frac{\partial x_i^l}{\partial w_a} = \sum\limits_{a=0}^{N-m}\frac{\partial E}{\partial w_a} y_{i+a}^{l-1} \end{equation}$

w_{a}

$w_a$

N - m

$N-m$

que vous pouvez voir dans la première équation. Pour calculer le gradient, nous devons connaître le premier terme, qui peut être calculé par:

\frac{\partial x_{i}^{l}}{\partial w_{a}} = y_{i + a}^{l - 1}

$\frac{\partial x_i^l}{\partial w_a}= y_{i+a}^{l-1}$

où encore le premier terme est l'erreur dans la couche précédente et

la fonction d'activation non linéaire.

\frac{\partial E}{\partial X_{je}^{l}} = \frac{\partial E}{\partial y_{je}^{l}} \frac{\partial y_{je}^{l}}{\partial X_{je}^{l}} = \frac{\partial E}{\partial y_{je}^{l}} \frac{\partial}{\partial X_{je}^{l}} F (X_{je}^{l})

$\frac{\partial E}{\partial x_i^l} = \frac{\partial E}{\partial y_i^l} \frac{\partial y_i^l}{\partial x_i^l} = \frac{\partial E}{\partial y_i^l} \frac{\partial}{\partial x_i^l} f(x_i^{l})$

f

$f$

Ayant toutes les entités nécessaires, nous pouvons maintenant calculer l'erreur et la propager efficacement vers la couche précieuse:

δ_{une}^{l - 1} = \frac{\partial E}{\partial y_{je}^{l - 1}} = \sum_{une = 0}^{m - 1} \frac{\partial E}{\partial X_{je - une}^{l}} \frac{\partial X_{je - une}^{l}}{\partial y_{je}^{l - 1}} = \sum_{une = 0}^{m - 1} \frac{\partial E}{\partial X_{je - une}^{l}} w_{une}^{F l je p p e ré}

$\delta^{l-1}_a = \frac{\partial E}{\partial y_i^{l-1} } = \sum\limits_{a=0}^{m-1} \frac{\partial E}{\partial x_{i-a}^l} \frac{\partial x_{i-a}^l}{\partial y_i^{l-1}} = \sum\limits_{a=0}^{m-1} \frac{\partial E}{\partial x^l_{i-a}} w_a^{flipped}$

x_{i}^{l}

$x_i^l$

y_{i}^{l - 1}

$y_i^{l-1}$

f l i p p e d

$flipped$

T

$T$

Par conséquent, vous pouvez simplement calculer l'erreur dans la couche suivante par (maintenant en notation vectorielle):

δ^{l} = (w^{l})^{T} δ^{l + 1} F^{'} (X^{l})

$\delta^{l} = (w^{l})^{T} \delta^{l+1} f'(x^{l})$

δ^{l} = u p s une m p l e ((w^{l})^{T} δ^{l + 1}) F^{'} (X^{l})

$\delta^{l} = upsample((w^{l})^{T} \delta^{l+1}) f'(x^{l})$

u p s a m p l e

$upsample$

N'hésitez pas à m'ajouter ou à me corriger!

Pour les références, voir:

http://ufldl.stanford.edu/tutorial/supervised/ConvolutionalNeuralNetwork/ http://andrew.gibiansky.com/blog/machine-learning/convolutional-neural-networks/

et pour une implémentation C ++ (sans obligation d'installation): https://github.com/nyanp/tiny-cnn#supported-networks

— LeoW.
source