Questions marquées «adam»

6
Adam optimiseur avec décroissance exponentielle
Dans la plupart des codes Tensorflow, j'ai constaté qu'Adam Optimizer est utilisé avec un taux d'apprentissage constant 1e-4(0,0001). Le code a généralement l'aspect suivant: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by …


3
Quelle est la raison pour laquelle Adam Optimizer est considéré comme robuste à la valeur de ses paramètres hyper?
Je lisais sur l' optimiseur Adam pour le Deep Learning et suis tombé sur la phrase suivante dans le nouveau livre Deep Learning de Bengio, Goodfellow et Courville: Adam est généralement considéré comme assez robuste pour le choix des paramètres hyper, bien que le taux d'apprentissage doive parfois être modifié …


1
Pourquoi est-il important d'inclure un terme de correction de biais pour l'optimiseur Adam pour l'apprentissage en profondeur?
Je lisais sur l' optimiseur Adam pour le Deep Learning et suis tombé sur la phrase suivante dans le nouveau livre Deep Learning de Begnio, Goodfellow et Courtville: Adam inclut des corrections de biais dans les estimations des moments du premier ordre (le terme de momentum) et des moments du …

1
RMSProp et Adam vs SGD
J'exécute des expériences sur l'ensemble de validation EMNIST en utilisant des réseaux avec RMSProp, Adam et SGD. J'atteins une précision de 87% avec SGD (taux d'apprentissage de 0,1) et décrochage (0,1 décrochage prob) ainsi que la régularisation L2 (pénalité 1e-05). En testant la même configuration exacte avec RMSProp et Adam …
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.