J'exécute des expériences sur l'ensemble de validation EMNIST en utilisant des réseaux avec RMSProp, Adam et SGD. J'atteins une précision de 87% avec SGD (taux d'apprentissage de 0,1) et décrochage (0,1 décrochage prob) ainsi que la régularisation L2 (pénalité 1e-05). En testant la même configuration exacte avec RMSProp et Adam ainsi que le taux d'apprentissage initial de 0,001, j'atteins une précision de 85% et une courbe d'entraînement nettement moins fluide. Je ne sais pas comment expliquer ce comportement. Quelle peut être la raison du manque de fluidité de la courbe d'entraînement et de la précision inférieure et des taux d'erreur plus élevés atteints?