[Note 5 avril 2019: une nouvelle version du document a été mise à jour sur arXiv avec de nombreux nouveaux résultats. Nous introduisons également des versions de retour arrière de Momentum et NAG, et prouvons la convergence sous les mêmes hypothèses que pour la descente de gradient de retour arrière.
Les codes sources sont disponibles sur GitHub sur le lien: https://github.com/hank-nguyen/MBT-optimizer
Nous avons amélioré les algorithmes d'application à DNN et obtenu de meilleures performances que les algorithmes de pointe tels que MMT, NAG, Adam, Adamax, Adagrad, ...
La caractéristique la plus spéciale de nos algorithmes est qu'ils sont automatiques, vous n'avez pas besoin de régler manuellement les taux d'apprentissage comme une pratique courante. Notre réglage automatique est de nature différente d'Adam, Adamax, Adagrad, ... et ainsi de suite. Plus de détails sont dans le papier.
]
Basé sur des résultats très récents: Dans mon travail conjoint dans cet article https://arxiv.org/abs/1808.05160
f
Sur la base de ce qui précède, nous avons proposé une nouvelle méthode d'apprentissage en profondeur qui est à égalité avec les méthodes actuelles de pointe et ne nécessite pas de réglage manuel précis des taux d'apprentissage. (En un mot , l'idée est que vous exécutez une descente de gradient de retour arrière un certain temps, jusqu'à ce que vous voyiez que les taux d'apprentissage, qui changent à chaque itération, se stabilisent. Nous nous attendons à cette stabilisation, en particulier à un point critique qui est C ^ 2 et est non dégénéré, en raison du résultat de convergence que j'ai mentionné ci-dessus. À ce stade, vous passez à la méthode de descente en gradient standard. Veuillez consulter l'article cité pour plus de détails. Cette méthode peut également être appliquée à d'autres algorithmes optimaux .)
PS En ce qui concerne votre question initiale sur la méthode de descente à gradient standard, à ma connaissance uniquement dans le cas où la dérivée de la carte est globalement Lipschitz et le taux d'apprentissage est suffisamment petit pour que la méthode de descente à gradient standard converge. [Si ces conditions ne sont pas remplies, il existe de simples contre-exemples montrant qu'aucun résultat de convergence n'est possible, voir l'article cité pour certains.] Dans l'article cité ci-dessus, nous avons soutenu qu'à long terme, la méthode de descente en gradient de retour en arrière deviendra la méthode de descente en gradient standard, qui explique pourquoi la méthode de descente en gradient standard fonctionne généralement bien en pratique.