Comment les réseaux de neurones convolutionnels utilisent-ils exactement la convolution à la place de la multiplication matricielle?

Je lisais le livre de Yoshua Bengio sur l'apprentissage profond et il est dit à la page 224:

Les réseaux convolutifs sont simplement des réseaux neuronaux qui utilisent la convolution à la place de la multiplication matricielle générale dans au moins une de leurs couches.

cependant, je ne savais pas à 100% comment "remplacer la multiplication matricielle par convolution" dans un sens mathématiquement précis.

Ce qui m'intéresse vraiment, c'est de définir cela pour les vecteurs d'entrée en 1D (comme dans $x \in \mathbb{R}^d$ ), donc je n'aurai pas d'entrée en tant qu'images et j'essaierai d'éviter la convolution en 2D.

Ainsi, par exemple, dans les réseaux de neurones "normaux", les opérations et le modèle de la salle d'alimentation peuvent être exprimés de manière concise comme dans les notes d'Andrew Ng:

W^{(l)} a^{(l)} = z^{(l + 1)}

$W^{(l)} a^{(l)} = z^{(l+1)}$

f (z^{(l + 1)}) = a^{(l + 1)}

$f(z^{(l+1)}) = a^{(l+1)}$

où est le vecteur calculé avant de le faire passer par la non-linéarité . La non-linéarité agit entrée pero sur le vecteur et est la sortie / activation d'unités cachées pour la couche en question. $z^{(l)}$ $f$ $z^{(l)}$ $a^{(l+1)}$

Ce calcul est clair pour moi car la multiplication matricielle est clairement définie pour moi, cependant, le simple remplacement de la multiplication matricielle par convolution me semble peu clair. c'est à dire

W^{(l)} * a^{(l)} = z^{(l + 1)}

$W^{(l)} * a^{(l)} = z^{(l+1)}$

f (z^{(l + 1)}) = a^{(l + 1)}

$f(z^{(l+1)}) = a^{(l+1)}$

Je veux m'assurer de bien comprendre mathématiquement l'équation ci-dessus.

Le premier problème que j'ai avec le simple remplacement de la multiplication matricielle par la convolution est qu'en général, on identifie une ligne de avec un produit scalaire. On sait donc clairement comment l'ensemble lié aux poids et qui correspond à un vecteur de la dimension indiquée par . Cependant, quand on le remplace par des circonvolutions, il n'est pas clair pour moi quelle ligne ou quels poids correspondent à quelles entrées dans $W^{(l)}$ $a^{(l)}$ $z^{(l+1)}$ $W^{(l)}$ $a^{(l)}$ . Ce n'est même pas clair pour moi qu'il est logique de représenter les poids comme une matrice en fait (je fournirai un exemple pour expliquer ce point plus tard)

Dans le cas où les entrées et sorties sont toutes en 1D, calcule-t-on simplement la convolution selon sa définition puis la passe-t-elle par une singularité?

Par exemple, si nous avions le vecteur suivant en entrée:

x = [1, 2, 3, 4]

$x = [1,2,3,4]$

et nous avions les poids suivants (peut-être que nous l'avons appris avec backprop):

W = [5, 6, 7]

$W = [5,6,7]$

alors la convolution est:

x * W = [5, 16, 34, 52, 45, 28]

$x * W = [5, 16, 34, 52, 45, 28]$

Serait-il correct de simplement passer la non-linéarité à travers cela et de traiter le résultat comme la couche / représentation cachée (supposons pas de mise en commun pour le moment)? c'est-à-dire comme suit:

f (x * W) = f ([5, 16, 34, 52, 45, 28]) = [f (5), f (16), f (34), f (52), f (45), f (28)])

$f(x * W) = f([5, 16, 34, 52, 45, 28]) = [f(5), f(16), f(34), f(52), f(45), f(28)])$

( Le tutoriel stanford UDLF, je pense, coupe les bords où la convolution convov avec des 0 pour une raison quelconque, devons-nous couper cela?)

Est-ce ainsi que cela devrait fonctionner? Au moins pour un vecteur d'entrée en 1D? Le n'est-il plus un vecteur? $W$

J'ai même dessiné un réseau de neurones à quoi cela devrait ressembler, je pense:

entrez la description de l'image ici

— Charlie Parker
source

Réponses:

Il me semble que vous êtes sur la bonne voie, mais je peux peut-être aider à clarifier.

Sortie unique

$n$ $w\in\mathbb{R}^n$

La couche prend une entrée et la met en correspondance avec une activation en calculant le produit scalaire de $x\in\mathbb{R}^n$ $a\in\mathbb{R}$ $x$ $w$ $\sigma$

a = σ (x \cdot w)

$a = \sigma(x\cdot w)$

$w$ $x$ $x$ $w$

Dans un environnement convolutionnel, il y a plus de valeurs dans que dans ; supposons maintenant notre entrée pour $x$ $w$ $x\in\mathbb{R}^m$ $m>n$ $w$ $x$

\begin{array}{rcl} a_{1} & = & σ (x_{1 : n} \cdot w) \\ a_{2} & = & σ (x_{2 : n + 1} \cdot w) \\ a_{3} & = & σ (x_{3 : n + 2} \cdot w) \\ \dots \\ a_{m - n + 1} & = & σ (x_{m - n + 1 : m} \cdot w) \end{array}

$\begin{eqnarray*} a_1 &=& \sigma(x_{1:n} \cdot w) \\ a_2 &=& \sigma(x_{2:n+1} \cdot w) \\ a_3 &=& \sigma(x_{3:n+2} \cdot w) \\ \dots \\ a_{m-n+1} &=& \sigma(x_{m-n+1:m} \cdot w) \end{eqnarray*}$

$w$

Vous avez déjà posé cela dans votre question, mais j'essaie de parcourir la connexion avec les couches de réseau neuronal vanille en utilisant le produit scalaire pour faire valoir un point. La principale différence avec les couches de réseau vanille est que si le vecteur d'entrée est plus long que le vecteur de poids, une convolution transforme la sortie de la couche réseau en un vecteur - dans les réseaux de convolution, ce sont des vecteurs à fond! Ce vecteur de sortie est appelé "carte d'entités" pour l'unité de sortie de cette couche.

Sorties multiples

$n$ $w^1\in\mathbb{R}^n$ $w^2\in\mathbb{R}^n$

$W = [w^1 w^2]$

\begin{array}{rcl} a^{1} & = & σ (x \cdot w^{1}) \\ a^{2} & = & σ (x \cdot w^{2}) \end{array}

$\begin{eqnarray*} a^1 &=& \sigma(x \cdot w^1) \\ a^2 &=& \sigma(x \cdot w^2) \end{eqnarray*}$

a = [a^{1} a^{2}] = σ (x \cdot W)

$a = [a^1 a^2] = \sigma(x \cdot W)$

$w^1$ $w^2$ $a^1 = [a^1_1 a^1_2 \dots a^1_{m-n+1}]$ $a^2 = [a^2_1 a^2_2 \dots a^2_{m-n+1}]$ $A = [a^1 a^2]$

A = σ (X * W)

$A = \sigma(X * W)$

X

$X$

W

$W$

J'espère que c'est utile!

— lmjohns3
source

Une couche convolutionnelle est un sous-ensemble strict d'un réseau entièrement connecté, c'est-à-dire une multiplication matricielle. Une couche convolutionnelle dans la passe avant est en fait équivalente à une multiplication matricielle où:

certains poids sont liés / partagés
certains poids sont nuls

Dans la passe en arrière, les poids seront mis à jour en fonction des poids qui ont contribué combien dans la passe en avant. c'est-à-dire que les poids qui étaient nuls sont toujours nuls. Les poids qui étaient liés à plusieurs sorties recevront un gradient de toutes ces sorties (lesquels gradients sont additionnés ensemble, pour produire la mise à jour finale du gradient pour ce poids).

— Hugh Perkins
source

Non, ce n'est pas ainsi que cela est censé fonctionner. L'opération de convolution réduit toujours l'entrée (pour les filtres de taille> 1), pas plus grande que dans votre exemple.

$1∗5+2∗6+3∗7=38$

— pir
source

N + n - 1

$N+n -1$

N - n + 1

$N-n+1$

La convolution utilisée dans cette webapge n'est pas la définition de la convolution mathématique.

— Charlie Parker

Oui, la convolution utilisée pour CNN n'est pas la convolution habituelle. C'est déroutant pour tout le monde, mais c'est comme ça :) Étant donné la nature de CNN, c'est-à-dire analyser une image, elle commencera toujours par la première

n

$n$ éléments, où

n

$n$ est la taille du filtre et ensuite être passé sur l'entrée. Cependant, il ne sera pas étendu au-delà de la fin, donc la sortie sera réduite de

n - 1

$n-1$ .

— pir

Je vois, je pense que cela a du sens maintenant que je l'ai regardé. Cependant, il y a une petite erreur. L'entrée ne la rend pas toujours plus petite, je connais les différents types de convolutions maintenant et même dans le CNN, selon le livre de Yoshua Bengio, il existe 3 types de convolutions (complet, valide, même) iro.umontreal.ca/ ~ bengioy / dlbook . Je ne les comprends pas en détail mais au moins je les connais! Merci Felbo. La communauté de la vision ne devrait pas utiliser le mot convolutions, son déroutant et irritant. Quoi qu'il en soit, merci.

— Charlie Parker

@CharlieParker La fonction conv dans Matlab a les mêmes 3 types de "formes" (complet, valide, identique), Matlab se contente par défaut de "plein" - voir les documents sur mathworks.com/help/matlab/ref/conv.html . Une convolution sans renverser le noyau est donc une corrélation croisée xcorr(x, y) = conv(x, fliplr(y)). La communauté NN a tendance à dire convolution quand elle fait une corrélation croisée, mais c'est assez similaire.

— lmjohns3