Je lisais sur l' optimiseur Adam pour le Deep Learning et suis tombé sur la phrase suivante dans le nouveau livre Deep Learning de Bengio, Goodfellow et Courville:
Adam est généralement considéré comme assez robuste pour le choix des paramètres hyper, bien que le taux d'apprentissage doive parfois être modifié par rapport à la valeur par défaut suggérée.
si cela est vrai, c'est un gros problème car la recherche d'hyperparamètres peut être très importante (du moins d'après mon expérience) dans les performances statistiques d'un système d'apprentissage en profondeur. Ainsi, ma question est, pourquoi Adam est-il robuste à des paramètres aussi importants? Surtout et β 2 ?
J'ai lu l'article d'Adam et il ne fournit aucune explication pour expliquer pourquoi il fonctionne avec ces paramètres ou pourquoi il est robuste. Le justifient-ils ailleurs?
De plus, en lisant l'article, il semble que le nombre d'hyper paramètres qu'ils ont essayés était très petit, pour seulement 2 et pour β 2 seulement 3. Comment cela peut-il être une étude empirique approfondie si cela ne fonctionne que sur des hyper paramètres 2x3 ?