Dans le cadre général de l'algorithme de descente de gradient, nous avons où x n est le point courant, η est la taille du pas et g r a d i e n t x n est le gradient évalué à x n .
J'ai vu dans un algorithme, les gens utilisent un gradient normalisé au lieu d'un gradient . Je voulais savoir quelle est la différence dans l'utilisation du dégradé normalisé et simplement du dégradé .