Récemment, j'ai lu un article de Yann Dauphin et al. Identifier et attaquer le problème du point de selle dans l'optimisation non convexe de haute dimension , où ils introduisent un algorithme de descente intéressant appelé Saddle-Free Newton , qui semble être exactement adapté pour l'optimisation du réseau neuronal et ne devrait pas souffrir de se coincer aux points de selle comme les méthodes de premier ordre comme SGD vanille.
Le papier remonte à 2014, donc ce n'est rien de nouveau, cependant, je ne l'ai pas vu utilisé "à l'état sauvage". Pourquoi cette méthode n'est-elle pas utilisée? Le calcul de la Hesse est-il trop prohibitif pour des problèmes / réseaux de taille réelle? Existe-t-il même une implémentation open source de cet algorithme, pouvant être utilisée avec certains des principaux frameworks d'apprentissage en profondeur?
Mise à jour février 2019: une implémentation est disponible dès maintenant: https://github.com/dave-fernandes/SaddleFreeOptimizer )