Pourquoi ne pas toujours utiliser la technique d'optimisation ADAM?

13

Il semble que l' optimiseur d' Adaptive Moment Estimation (Adam) fonctionne presque toujours mieux (plus rapidement et de manière plus fiable pour atteindre un minimum global) lors de la minimisation de la fonction de coût dans la formation des réseaux neuronaux.

Pourquoi ne pas toujours utiliser Adam? Pourquoi s'embêter à utiliser RMSProp ou des optimiseurs de momentum?

neural-network optimization

— PyRsquared
source

1

Je ne pense pas qu'il existe un moyen strict et formalisé d'appuyer l'une ou l'autre déclaration. Tout est purement empirique, car la surface d'erreur est inconnue. En règle générale, et uniquement par expérience m, ADAM réussit bien là où d'autres échouent (segmentation d'instance), mais pas sans inconvénients (la convergence n'est pas monotone)

— Alex

2

Adam est plus rapide à converger. SGD est plus lent mais se généralise mieux. Donc, à la fin, tout dépend de votre situation particulière.

— agcala

13

Voici un article de blog examinant un article affirmant que SGD est un meilleur adaptateur généralisé qu'ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/

Il y a souvent une valeur à utiliser plus d'une méthode (un ensemble), car chaque méthode a une faiblesse.

— Christopher Klaus
source

5

Vous devriez également jeter un œil à cet article comparant différents optimiseurs de descente de gradient. Comme vous pouvez le voir ci-dessous, Adam n'est clairement pas le meilleur optimiseur pour certaines tâches car beaucoup convergent mieux.

Pour mémoire: dans l'article lié, ils mentionnent certains des défauts d'ADAM et présentent AMSGrad comme solution. Cependant, ils concluent que si AMSGrad surpasse ADAM dans les pratiques est (au moment de la rédaction) non concluante.

— Lus