La littérature sur l'apprentissage en profondeur regorge de trucs astucieux avec l'utilisation de taux d'apprentissage non constants dans la descente de gradient. Des choses comme la décroissance exponentielle, RMSprop, Adagrad, etc. sont faciles à mettre en œuvre et sont disponibles dans tous les packages d'apprentissage en profondeur, mais elles semblent inexistantes en dehors des réseaux de neurones. Y a-t-il une raison quelconque pour cela? Si c'est simplement que les gens s'en moquent, y a-t-il une raison pour laquelle nous ne devons pas nous soucier en dehors des réseaux de neurones?