Les deux premiers algorithmes que vous mentionnez (Nelder-Mead et Simulated Annealing) sont généralement considérés comme relativement obsolètes dans les cercles d’optimisation, car il existe de bien meilleures alternatives qui sont à la fois plus fiables et moins coûteuses. Les algorithmes génétiques couvrent un large éventail, et certains d'entre eux peuvent être raisonnables.
Toutefois, dans la classe plus large des algorithmes d’optimisation sans dérivées (MPO), beaucoup sont nettement meilleurs que ces "classiques", dans la mesure où il s’agissait d’un domaine de recherche actif au cours des dernières décennies. Ainsi, certaines de ces nouvelles approches pourraient-elles être raisonnables pour un apprentissage en profondeur?
Un article relativement récent comparant l’état de la technique est le suivant:
Rios, LM, & Sahinidis, NV (2013) Optimisation sans dérivés: examen des algorithmes et comparaison des implémentations logicielles. Journal of Global Optimization.
Ceci est un bel article qui présente de nombreuses informations intéressantes sur les techniques récentes. Par exemple, les résultats montrent clairement que les meilleurs optimiseurs locaux sont tous "basés sur un modèle" et utilisent différentes formes de programmation quadratique séquentielle (SQP).
Cependant, comme indiqué dans leur résumé "Nous constatons que la capacité de tous ces solveurs à obtenir de bonnes solutions diminue avec l’augmentation de la taille du problème." Pour donner une idée des nombres, pour tous les problèmes, les solveurs se voyaient attribuer un budget de 2 500 évaluations de fonctions et la taille des problèmes représentait un maximum de ~ 300 paramètres à optimiser. Au-delà des paramètres O [10], très peu de ces optimiseurs se sont très bien comportés, et même les meilleurs ont montré une baisse notable des performances à mesure que la taille du problème augmentait.
Donc, pour les problèmes très dimensionnels, les algorithmes du MPO ne sont tout simplement pas compétitifs par rapport aux algorithmes dérivés. Pour donner une certaine perspective, l’ optimisation basée sur les PDE (équations aux dérivées partielles) est un autre domaine qui présente des problèmes dimensionnels très élevés (par exemple, plusieurs paramètres pour chaque cellule d’une grande grille d’éléments finis 3D). Dans ce domaine, la " méthode adjointe " est l'une des méthodes les plus utilisées. Il s’agit également d’un optimiseur de gradient-descente basé sur la différenciation automatique d’un code de modèle avancé.
Le filtre le plus proche d’un optimiseur DFO de haute dimension est peut-être le filtre d’ensemble Kalman , utilisé pour assimiler des données dans des simulations complexes d’EDP, par exemple des modèles météorologiques. Fait intéressant, il s’agit essentiellement d’une approche SQP, mais avec une interprétation bayésienne-gaussienne (le modèle quadratique est donc défini positif, c’est-à-dire qu’il n’ya pas de point d'équilibre). Mais je ne pense pas que le nombre de paramètres ou d'observations dans ces applications soit comparable à ce que l'on voit dans l'apprentissage en profondeur.
Note secondaire (minima locaux): D'après le peu que j'ai lu sur l'apprentissage en profondeur, je pense que le consensus est qu'il s'agit de points de selle plutôt que de minima locaux, qui sont les plus problématiques pour les espaces de paramètres NN de grande dimension.
Par exemple, la revue récente de Nature indique que "Les résultats théoriques et empiriques récents suggèrent fortement que les minima locaux ne sont pas un problème grave en général. Au lieu de cela, le paysage est rempli d'un nombre combinatoire important de points de selle où la pente est nulle et courbes de surface dans la plupart des dimensions et courbes dans le reste. "
Une préoccupation connexe concerne l'optimisation locale par rapport à l'optimisation globale (par exemple, cette question est soulignée dans les commentaires). Même si je n’apprends pas en profondeur, le fait de suréquiper est certainement une préoccupation valable. À mon avis, les méthodes d'optimisation globales sont les mieux adaptées aux problèmes de conception technique qui ne dépendent pas fortement de données "naturelles". En ce qui concerne les problèmes d'assimilation de données, les minima globaux actuels pourraient facilement changer si de nouvelles données étaient ajoutées (mise en garde: mon expérience est concentrée dans les problèmes géoscientifiques, où les données sont généralement "rares" par rapport à la capacité du modèle).
Une perspective intéressante est peut-être
O. Bousquet & L. Bottou (2008) Les compromis d'un apprentissage à grande échelle. NIPS.
qui fournit des arguments semi-théoriques sur pourquoi et quand l'optimisation approximative peut être préférable en pratique.
Note finale (méta-optimisation): Bien que les techniques basées sur les gradients semblent prédominer pour les réseaux de formation, le MPO pourrait jouer un rôle dans les tâches de méta-optimisation associées.
Un exemple serait le réglage hyper-paramètre. (Il est intéressant de noter que les optimiseurs DFO basés sur des modèles de Rios & Sahinidis, qui ont fait leurs preuves, pourraient essentiellement être considérés comme résolvant une séquence de problèmes de conception d'expériences / surface de réponse .)
O [ N2]n o tL1 pourrait être méta-optimisé cependant.)