Je suis curieux de savoir comment les gradients sont propagés en retour à travers un réseau de neurones à l'aide de modules ResNet / sauter les connexions. J'ai vu quelques questions sur ResNet (par exemple, un réseau de neurones avec des connexions de couche de saut ), mais celui-ci pose spécifiquement des questions sur la rétropropagation des gradients pendant l'entraînement.
L'architecture de base est ici:
J'ai lu cet article, Étude des réseaux résiduels pour la reconnaissance d'image , et dans la section 2, ils expliquent comment l'un des objectifs de ResNet est de permettre un chemin plus court / plus clair pour que le gradient se propage en retour vers la couche de base.
Quelqu'un peut-il expliquer comment le gradient traverse ce type de réseau? Je ne comprends pas très bien comment l'opération d'ajout, et l'absence d'une couche paramétrée après l'ajout, permet une meilleure propagation du gradient. Cela a-t-il quelque chose à voir avec la façon dont le gradient ne change pas lorsqu'il passe par un opérateur d'ajout et est en quelque sorte redistribué sans multiplication?
De plus, je peux comprendre comment le problème du gradient de fuite est atténué si le gradient n'a pas besoin de traverser les couches de poids, mais s'il n'y a pas de flux de gradient à travers les poids, alors comment sont-ils mis à jour après le passage en arrière?
the gradient doesn't need to flow through the weight layers
, pourriez-vous expliquer cela?