Il semble que l' optimiseur d' Adaptive Moment Estimation (Adam) fonctionne presque toujours mieux (plus rapidement et de manière plus fiable pour atteindre un minimum global) lors de la minimisation de la fonction de coût dans la formation des réseaux neuronaux.
Pourquoi ne pas toujours utiliser Adam? Pourquoi s'embêter à utiliser RMSProp ou des optimiseurs de momentum?