Existe-t-il une littérature qui examine le choix de la taille du mini-lot lors de la descente de gradient stochastique? D'après mon expérience, cela semble être un choix empirique, généralement trouvé via la validation croisée ou en utilisant différentes règles empiriques.
Est-ce une bonne idée d'augmenter lentement la taille du mini-lot à mesure que l'erreur de validation diminue? Quels effets cela aurait-il sur l'erreur de généralisation? Suis-je mieux d'utiliser un mini-lot extrêmement petit et de mettre à jour mon modèle des centaines de milliers de fois? Serais-je mieux avec un nombre équilibré quelque part entre extrêmement petit et lot?
Dois-je mettre à l'échelle la taille de mon mini-lot avec la taille de l'ensemble de données ou le nombre attendu d'entités dans l'ensemble de données?
J'ai évidemment beaucoup de questions sur la mise en œuvre de programmes d'apprentissage de mini-lots. Malheureusement, la plupart des articles que j'ai lus ne précisent pas vraiment comment ils ont choisi cet hyperparamètre. J'ai eu un certain succès d'auteurs tels que Yann LeCun, en particulier de la collection de papiers Tricks of the Trade. Cependant, je n'ai toujours pas vu ces questions entièrement traitées. Quelqu'un a-t-il des recommandations pour des articles ou des conseils sur les critères que je peux utiliser pour déterminer les bonnes tailles de mini-lots lorsque vous essayez d'apprendre des fonctionnalités?