Comment fonctionne le terme de momentum pour l'algorithme de rétropropagation?

Lors de la mise à jour des poids d'un réseau neuronal en utilisant l'algorithme de rétropropagation avec un terme de momentum, le taux d'apprentissage devrait-il également être appliqué au terme de momentum?

La plupart des informations que j'ai pu trouver sur l'utilisation de l'élan ont les équations ressemblant à ceci:

$W_{i}' = W_{i} - \alpha \Delta W_i + \mu \Delta W_{i-1}$

où est le taux d'apprentissage et est le terme de momentum. $\alpha$ $\mu$

si le terme est plus grand que le terme , alors dans la prochaine itération, le de l'itération précédente aura une plus grande influence sur le poids que l'actuel. $\mu$ $\alpha$ $\Delta W$

Est-ce là le but du terme élan? ou l'équation devrait-elle ressembler davantage à ceci?

$W_{i}' = W_{i} - \alpha( \Delta W_i + \mu \Delta W_{i-1})$

c'est à dire. tout mettre à l'échelle par le taux d'apprentissage?

machine-learning neural-networks

— guskenny83
source

En utilisant la rétropropagation avec élan dans un réseau avec poids différents la ème correction pour le poids est donnée par $n$ $W_k$ $i$ $W_k$

$\Delta W_k(i) = -\alpha \frac{\partial E}{\partial W_k} + \mu \Delta W_k(i-1)$ où est la variation de la perte par rapport à . $\frac{\partial E}{\partial W_k}$ $W_k$

L'introduction de la quantité de mouvement permet l'atténuation des oscillations dans la descente de gradient. L'idée géométrique derrière cette idée peut probablement être mieux comprise en termes d'analyse de l'espace propre dans le cas linéaire. Si le rapport entre la valeur propre la plus basse et la plus grande est grand, alors la descente en gradient est lente même si le taux d'apprentissage est grand en raison du conditionnement de la matrice. L'élan introduit un certain équilibre dans la mise à jour entre les vecteurs propres associés à des valeurs propres plus petites et plus grandes.

Pour plus de détails, je me réfère à

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

— Nico
source

Que signifie la sous-attache?

— David Richerby

ok, donc le terme momentum est incorporé lors du calcul du terme , plutôt que ajouté lors du calcul de la "nouvelle" valeur de poids? Juste pour clarifier, votre terme être ? ou s'agit-il d'une proportion du poids réel plutôt que de la variation du taux? merci pour votre réponse et pour le lien vers le document.

Δ W_{k}

$\Delta W_k$

μ W_{k} (i - 1)

$\mu W_k(i-1)$

μ Δ W_{k} (i - 1)

$\mu \Delta W_k(i-1)$

— guskenny83

merci d'avoir signalé l'erreur. C'est bien sûr

Δ W_{k} (i - 1)

$\Delta W_k(i-1)$

— nico

Qu'entendez-vous par «variation de la perte»? Est-ce quelque chose comme "variation de l'erreur"?

— starbeamrainbowlabs

Cela ne signifie rien d'autre que la dérivée de l'erreur par rapport aux poids.

— nico