J'ai vu des conclusions similaires à partir de nombreuses discussions, à mesure que la taille du mini-lot augmente, la convergence des SGD devient en fait plus difficile / pire, par exemple ce document et cette réponse . J'ai également entendu parler de personnes utilisant des astuces comme de petits taux d'apprentissage ou des tailles de lot au début pour résoudre cette difficulté avec de grandes tailles de lot.
Cependant, cela semble contre-intuitif car la perte moyenne d'un mini-lot peut être considérée comme une approximation de la perte attendue sur la distribution des données,
Voici quelques-unes de mes pensées (probablement fausses) qui essaient d'expliquer.
Les paramètres du modèle dépendent fortement les uns des autres, lorsque le lot devient trop volumineux, cela affectera trop de paramètres à la fois, de sorte qu'il est difficile pour les paramètres d'atteindre une dépendance inhérente stable? (comme le problème de décalage covariable interne mentionné dans le document de normalisation par lots )
Ou lorsque presque tous les paramètres sont responsables à chaque itération, ils auront tendance à apprendre des modèles implicites redondants, ce qui réduit donc la capacité du modèle? (Je veux dire par exemple pour les problèmes de classification des chiffres, certains motifs devraient être responsables des points, d'autres des bords, mais lorsque cela se produit, chaque motif essaie d'être responsable de toutes les formes).
Ou est-ce parce que lorsque la taille des lots se rapproche de l'échelle de l'ensemble d'apprentissage, les minibatches ne peuvent plus être considérés comme iid à partir de la distribution des données, car il y aura une forte probabilité de minibatches corrélés?
Mise à jour
Comme indiqué dans la réponse de Benoit Sanchez, une raison importante est que les grands minibatches nécessitent plus de calculs pour effectuer une mise à jour, et la plupart des analyses utilisent une quantité fixe d'époques d'apprentissage pour la comparaison.
Cependant, cet article (Wilson et Martinez, 2003) montre qu'une plus grande taille de lot est encore légèrement désavantageuse, même avec suffisamment de périodes d'apprentissage. Est-ce généralement le cas?