Deep Neural Network - Backpropogation avec ReLU

J'ai du mal à dériver la propagation avec ReLU, et j'ai fait du travail, mais je ne sais pas si je suis sur la bonne voie.

Fonction de coût: où est la valeur réelle et est une valeur prédite. Supposons également que > 0 toujours. $\frac{1}{2}(y-\hat y)^2$ $y$ $\hat y$ $x$

1 couche ReLU, où le poids à la 1ère couche est $w_1$

$\frac{dC}{dw_1}=\frac{dC}{dR}\frac{dR}{dw_1}$

$\frac{dC}{w_1}=(y-ReLU(w_1x))(x)$

2 Layer ReLU, où les poids à la 1ère couche sont , et la 2ème couche est Et je voulais mettre à jour la 1ère couche $w_2$ $w_1$ $w_2$

$\frac{dC}{dw_2}=\frac{dC}{dR}\frac{dR}{dw_2}$

$\frac{dC}{w_2}=(y-ReLU(w_1*ReLU(w_2x))(w_1x)$

Depuis $ReLU(w_1*ReLU(w_2x))=w_1w_2x$

ReLU à 3 couches, où les poids à la 1ère couche sont , 2e couche et 3e couche $w_3$ $w_2$ $w_1$

$\frac{dC}{dw_3}=\frac{dC}{dR}\frac{dR}{dw_3}$

$\frac{dC}{w_3}=(y-ReLU(w_1*ReLU(w_2(*ReLU(w_3)))(w_1w_2x)$

Depuis $ReLU(w_1*ReLU(w_2(*ReLU(w_3))=w_1w_2w_3x$

Étant donné que la règle de chaîne ne dure qu'avec 2 dérivés, par rapport à un sigmoïde, qui peut être aussi long que nombre de couches. $n$

Supposons que je veuille mettre à jour les 3 pondérations des couches, où est la troisième couche, est la deuxième couche, est la troisième couche $w_1$ $w_2$ $w_1$

$\frac{dC}{w_1}=(y-ReLU(w_1x))(x)$

$\frac{dC}{w_2}=(y-ReLU(w_1*ReLU(w_2x))(w_1x)$

$\frac{dC}{w_3}=(y-ReLU(w_1*ReLU(w_2(*ReLU(w_3)))(w_1w_2x)$

Si cette dérivation est correcte, comment cela empêche-t-il de disparaître? Par rapport à sigmoïde, où nous avons beaucoup de multiplier par 0,25 dans l'équation, alors que ReLU n'a pas de multiplication à valeur constante. S'il y a des milliers de couches, il y aurait beaucoup de multiplication à cause des poids, alors cela ne causerait-il pas un gradient de fuite ou d'explosion?

neural-network backpropagation

— user1157751
source

@NeilSlater Merci pour votre réponse! Pouvez-vous élaborer, je ne suis pas sûr de ce que vous vouliez dire?

— user1157751

Ah, je pense que je sais ce que tu voulais dire. Eh bien, la raison pour laquelle j'ai soulevé cette question est que je suis sûr que la dérivation est correcte? J'ai cherché autour et je n'ai pas trouvé d'exemple de ReLU entièrement dérivé de zéro?

— user1157751

Définitions de travail de la fonction ReLU et de sa dérivée:

$ReLU(x) = \begin{cases} 0, & \text{if } x < 0, \\ x, & \text{otherwise}. \end{cases}$

$\frac{d}{dx} ReLU(x) = \begin{cases} 0, & \text{if } x < 0, \\ 1, & \text{otherwise}. \end{cases}$

La dérivée est la fonction de pas d' unité . Cela ignore un problème à $x=0$ , où le gradient n'est pas strictement défini, mais ce n'est pas une préoccupation pratique pour les réseaux de neurones. Avec la formule ci-dessus, la dérivée à 0 est 1, mais vous pouvez également la traiter comme 0 ou 0,5 sans impact réel sur les performances du réseau de neurones.

Réseau simplifié

Avec ces définitions, regardons vos exemples de réseaux.

Vous exécutez une régression avec la fonction de coût $C = \frac{1}{2}(y-\hat{y})^2$ . Vous avez défini $R$ comme la sortie du neurone artificiel, mais vous n'avez pas défini de valeur d'entrée. J'ajouterai cela pour être complet - appelez-le $z$ , ajoutez une indexation par couche, et je préfère les minuscules pour les vecteurs et les majuscules pour les matrices, donc $r^{(1)}$ sortie de la première couche, $z^{(1)}$ pour son entrée et $W^{(0)}$ pour le poids reliant le neurone à son entrée $x$ (dans un réseau plus grand, qui pourrait se connecter à unplus profond $r$ à la place). J'ai également ajusté le numéro d'index pour la matrice de poids - pourquoi cela deviendra plus clair pour le plus grand réseau. NB J'ignore avoir plus de neurones dans chaque couche pour l'instant.

En regardant votre simple couche 1, 1 réseau de neurones, les équations de rétroaction sont:

$z^{(1)} = W^{(0)}x$

$\hat{y} = r^{(1)} = ReLU(z^{(1)})$

La dérivée de la fonction de coût par rapport à un exemple d'estimation est:

$\frac{\partial C}{\partial \hat{y}} = \frac{\partial C}{\partial r^{(1)}} = \frac{\partial}{\partial r^{(1)}}\frac{1}{2}(y-r^{(1)})^2 = \frac{1}{2}\frac{\partial}{\partial r^{(1)}}(y^2 - 2yr^{(1)} + (r^{(1)})^2) = r^{(1)} - y$

Utilisation de la règle de chaîne pour la propagation arrière à la valeur de pré-transformation ( $z$ ):

$\frac{\partial C}{\partial z^{(1)}} = \frac{\partial C}{\partial r^{(1)}} \frac{\partial r^{(1)}}{\partial z^{(1)}} = (r^{(1)} - y)Step(z^{(1)}) = (ReLU(z^{(1)}) - y)Step(z^{(1)})$

Ce $\frac{\partial C}{\partial z^{(1)}}$ est une étape intermédiaire et une partie critique du backprop reliant les étapes ensemble. Les dérivations sautent souvent cette partie car des combinaisons intelligentes de fonction de coût et de couche de sortie signifient qu'elle est simplifiée. Ici non.

Pour obtenir le gradient par rapport au poids $W^{(0)}$ , alors c'est une autre itération de la règle de chaîne:

$\frac{\partial C}{\partial W^{(0)}} = \frac{\partial C}{\partial z^{(1)}} \frac{\partial z^{(1)}}{\partial W^{(0)}} = (ReLU(z^{(1)}) - y)Step(z^{(1)})x = (ReLU(W^{(0)}x) - y)Step(W^{(0)}x)x$

. . . car $z^{(1)} = W^{(0)}x$ donc $\frac{\partial z^{(1)}}{\partial W^{(0)}} = x$

C'est la solution complète pour votre réseau le plus simple.

Cependant, dans un réseau en couches, vous devez également appliquer la même logique à la couche suivante. De plus, vous avez généralement plus d'un neurone dans une couche.

Réseau ReLU plus général

Si nous ajoutons des termes plus génériques, nous pouvons travailler avec deux couches arbitraires. Appelez-les Layer $(k)$ indexé par $i$ , et Layer $(k+1)$ indexé par $j$ . Les poids sont maintenant une matrice. Donc, nos équations de rétroaction ressemblent à ceci:

$z^{(k+1)}_j = \sum_{\forall i} W^{(k)}_{ij}r^{(k)}_i$

$r^{(k+1)}_j = ReLU(z^{(k+1)}_j)$

Dans la couche de sortie, le gradient initial wrt $r^{output}_j$ est encore $r^{output}_j - y_j$ . Cependant, ignorez cela pour l'instant et regardez la façon générique de propager en arrière, en supposant que nous avons déjà trouvé $\frac{\partial C}{\partial r^{(k+1)}_j}$

Nous devons d'abord accéder à l'entrée des neurones avant d'appliquer ReLU:

$\frac{\partial C}{\partial z^{(k+1)}_j} = \frac{\partial C}{\partial r^{(k+1)}_j} \frac{\partial r^{(k+1)}_j}{\partial z^{(k+1)}_j} = \frac{\partial C}{\partial r^{(k+1)}_j}Step(z^{(k+1)}_j)$

Nous devons également propager le gradient vers les couches précédentes, ce qui implique de résumer toutes les influences connectées à chaque neurone:

$\frac{\partial C}{\partial r^{(k)}_i} = \sum_{\forall j} \frac{\partial C}{\partial z^{(k+1)}_j} \frac{\partial z^{(k+1)}_j}{\partial r^{(k)}_i} = \sum_{\forall j} \frac{\partial C}{\partial z^{(k+1)}_j} W^{(k)}_{ij}$

Et nous devons le connecter à la matrice des poids afin de faire des ajustements plus tard:

$\frac{\partial C}{\partial W^{(k)}_{ij}} = \frac{\partial C}{\partial z^{(k+1)}_j} \frac{\partial z^{(k+1)}_j}{\partial W^{(k)}_{ij}} = \frac{\partial C}{\partial z^{(k+1)}_j} r^{(k)}_{i}$

$Step(z^{(k+1)}_j)$

Retour à vos questions:

Si cette dérivation est correcte, comment cela empêche-t-il de disparaître?

Votre dérivation n'était pas correcte. Cependant, cela ne répond pas complètement à vos préoccupations.

$y(1-y)$ $x = 0, y = 0.5$ $x=0$ . Le gradient du ReLU est soit 0 soit 1, et dans un réseau sain sera 1 assez souvent pour avoir moins de perte de gradient pendant la rétropropagation. Ce n'est pas garanti, mais les expériences montrent que ReLU a de bonnes performances dans les réseaux profonds.

S'il y a des milliers de couches, il y aurait beaucoup de multiplication à cause des poids, alors cela ne causerait-il pas un gradient de fuite ou d'explosion?

Oui, cela peut aussi avoir un impact. Cela peut être un problème indépendamment du choix de la fonction de transfert. Dans certaines combinaisons, ReLU peut également aider à garder les gradients explosifs sous contrôle, car il ne sature pas (donc les normes de poids importantes auront tendance à être de mauvaises solutions directes et il est peu probable qu'un optimiseur se déplace vers elles). Cependant, cela n'est pas garanti.

— Neil Slater
source

\frac{d C}{d \hat{y}}

$\frac{dC}{d \hat y}$

\frac{\partial C}{\partial \hat{y}} = \frac{\partial C}{\partial r^{(1)}}

$\frac{\partial C}{\partial \hat{y}} = \frac{\partial C}{\partial r^{(1)}}$

\hat{y} = r^{(1)}

$\hat{y} = r^{(1)}$ . La fonction de coût C est suffisamment simple pour que vous puissiez prendre sa dérivée immédiatement. La seule chose que je n'ai pas montrée là-bas est l'extension du carré - voulez-vous que je l'ajoute?

— Neil Slater

Mais

C

$C$ est

\frac{1}{2} (y - \hat{y})^{2}

$\frac{1}{2}(y- \hat y)^2$ , n'avons-nous pas besoin d'exécuter la règle de chaîne pour pouvoir effectuer la dérivée sur

\hat{y}

$\hat y$ ?

\frac{d C}{d \hat{y}} = \frac{d C}{d U} \frac{d U}{d \hat{y}}

$\frac{dC}{d \hat y}=\frac{dC}{dU}\frac{dU}{d \hat y}$ , où

U = y - \hat{y}

$U = y - \hat y$ . Excusez-moi de poser des questions très simples, ma capacité en mathématiques vous cause probablement des problèmes: (

— user1157751

Si vous pouvez simplifier les choses en développant. Veuillez ensuite agrandir le carré.

— user1157751

@ user1157751: Oui, vous pouvez utiliser la règle de chaîne de cette manière, et cela donnerait la même réponse que celle que je montre. Je viens d'agrandir le carré - je vais le montrer.

— Neil Slater