Dans SGD, une époque serait la présentation complète des données d'entraînement, puis il y aurait N mises à jour de poids par époque (s'il y a N exemples de données dans l'ensemble d'entraînement).
Si nous faisons maintenant des mini-lots à la place, disons par lots de 20. Une époque se compose-t-elle maintenant de mises à jour de poids N / 20, ou une époque est-elle «allongée» de 20 afin qu'elle contienne le même nombre de mises à jour de poids?
Je pose la question car dans quelques articles, l'apprentissage semble être trop rapide pour le nombre d'époques indiqué.