Qu'est-ce qu'un bloc d'apprentissage résiduel dans le contexte des réseaux résiduels profonds dans l'apprentissage profond?

Je lisais le document Deep Residual Learning for Image Recognition et j'avais du mal à comprendre avec 100% de certitude ce qu'implique un bloc résiduel sur le plan informatique. En lisant leur article, ils ont la figure 2:

qui illustre ce qu'est un bloc résiduel. Le calcul d'un bloc résiduel est-il simplement le même que:

y = σ (W_{2} σ (W_{1} x + b_{1}) + b_{2} + x)

$\mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} )$

Ou s'agit-il d'autre chose?

En d'autres termes, peut-être pour essayer de faire correspondre la notation du papier, c'est:

F (x) + x = [W_{2} σ (W_{1} x + b_{1}) + b_{2}] + x

$\mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x}$

Est-ce vrai?

$\mathbf{y}$

σ (F (x) + x) = σ ([W_{2} σ (W_{1} x + b_{1}) + b_{2}] + x)

$\sigma( \mathcal F(x) + x ) = \sigma( \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} )$

$\sigma$

— Charlie Parker
source

is x is positive relu (x) = x

— Ray Tayek

Oui c'est vrai, vous pouvez jeter un oeil à leur modèle caffe pour voir comment il est mis en œuvre.

— dontloo
source