Une époque en descente de gradient stochastique est définie comme un passage unique dans les données. Pour chaque minibatch SGD, échantillons sont extraits, le gradient calculé et les paramètres mis à jour. Dans le réglage d'époque, les échantillons sont prélevés sans remplacement.
Mais cela semble inutile. Pourquoi ne pas dessiner chaque minibatch SGD car tirage aléatoire de l'ensemble des données à chaque itération? Sur un grand nombre d'époques, les petits écarts dont on voit les échantillons plus ou moins souvent sembleraient sans importance.