Approximation de second ordre de la fonction de perte (livre d'apprentissage en profondeur, 7.33)


11

Dans le livre de Goodfellow (2016) sur l'apprentissage profond, il a parlé de l'équivalence de l'arrêt précoce de la régularisation L2 ( https://www.deeplearningbook.org/contents/regularization.html page 247).

L'approximation quadratique de la fonction de coût j est donnée par:

J^(θ)=J(w)+12(ww)TH(ww)

H est la matrice de Hesse (Eq. 7.33). Est-ce que cela manque le moyen terme? L'expansion de Taylor doit être:

f(w+ϵ)=f(w)+f(w)ϵ+12f(w)ϵ2

Réponses:


15

Ils parlent des poids au mieux:

Jw

À ce stade, la dérivée première est nulle - le terme moyen est donc laissé de côté.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.