Lorsque j'ai implémenté un mini-gradient décent, j'ai simplement fait la moyenne des gradients de tous les exemples du lot de formation. Cependant, j'ai remarqué que maintenant le taux d'apprentissage optimal est beaucoup plus élevé que pour un gradient décent en ligne. Mon intuition est que c'est parce que le gradient moyen est moins bruyant et pourrait donc être suivi plus rapidement. Il est donc peut-être également logique de résumer les gradients d'un lot. Les valeurs peuvent de toute façon être positives et négatives.
Je sais que c'est juste un facteur constant qui peut être équilibré en utilisant le taux d'apprentissage. Mais je me demande quelle est la définition sur laquelle les scientifiques se sont mis d'accord pour que je puisse reproduire les résultats des papiers du réseau neuronal.
Divise-t-on généralement les gradients sommés d'un lot par la taille du lot?