TL; DR
Je recommande d'utiliser LIPO. C’est tout à fait correct et bien meilleur que la recherche aléatoire pure (PRS). Il est également extrêmement simple à mettre en œuvre et n’a pas d’hyperparamètres. Je n'ai pas effectué d'analyse comparant LIPO à BO, mais je m'attends à ce que la simplicité et l'efficacité de LIPO impliquent qu'il sera plus performant que BO.
(Voir aussi: Quels sont les inconvénients de l'optimisation bayésienne à hyper-paramètres? )
Optimisation Bayésienne
Les méthodes de type optimisation bayésienne construisent des modèles de substitution de processus gaussiens pour explorer l'espace des paramètres. L'idée principale est que les nuplets de paramètres les plus proches auront des valeurs de fonction similaires, de sorte que l'hypothèse d'une structure de co-variance entre les points permet à l'algorithme de faire des suppositions éclairées sur le meilleur nuplet de paramètre qui mérite le plus d'être essayé. Cette stratégie aide à réduire le nombre d’évaluations de fonctions; En fait, les méthodes BO ont pour objectif de limiter le plus possible le nombre d'évaluations de fonctions tout en "utilisant le buffle entier" pour deviner avec précision le point à tester par la suite. Différents facteurs de mérite (amélioration attendue, amélioration attendue du quantile, probabilité d'amélioration, etc.) sont utilisés pour comparer les points à visiter ensuite.
Comparez cela à quelque chose comme une recherche sur grille, qui n'utilisera jamais les informations de ses évaluations de fonctions précédentes pour indiquer où aller ensuite.
Incidemment, il s’agit également d’une puissante technique d’optimisation globale qui, en tant que telle, ne fait aucune hypothèse sur la convexité de la surface. De plus, si la fonction est stochastique (par exemple, les évaluations ont un bruit aléatoire inhérent), cela peut être directement pris en compte dans le modèle GP.
D'autre part, vous devrez adapter au moins un généraliste à chaque itération (ou plusieurs, en choisissant le "meilleur", ou en calculant la moyenne des alternatives, ou des méthodes entièrement bayésiennes). Ensuite, le modèle est utilisé pour effectuer (probablement des milliers) de prédictions, généralement sous la forme d'une optimisation locale à plusieurs étapes, en observant qu'il est beaucoup moins coûteux d'évaluer la fonction de prédiction GP que la fonction sous optimisation. Mais même avec cette surcharge de calcul, il est généralement possible d'optimiser même les fonctions non-convexes avec un nombre relativement petit d'appels de fonction.
Jones et al. , "Optimisation globale efficace des fonctions coûteuses de la boîte noire", est un article largement cité sur le sujet . Mais il y a beaucoup de variations sur cette idée.
Recherche aléatoire
Même lorsque la fonction de coût est coûteuse à évaluer, la recherche aléatoire peut toujours être utile. La recherche aléatoire est extrêmement simple à mettre en œuvre. Pour un chercheur, le seul choix est de définir la probabilité p que vous souhaitez que vos résultats se situent dans un quantile q ; le reste procède automatiquement en utilisant les résultats de la probabilité de base.
Supposons que votre quantile est q= 0,95 et que vous voulez une probabilité p = 0,95 que les résultats du modèle se situent dans le top 100 × ( 1 - q) = 5 % de tous les n-uplets de l'hyperparamètre. La probabilité que tous lesn tuples tentésnesoientpasdans cette fenêtre estqn= 0,95n (car ils sont choisis indépendamment de manière aléatoire dans la même distribution), de sorte que la probabilité qu’aumoins untuple se trouve dans cette région est comprise entre1 - 0,95n. En réunissant tout, nous avons
1 - qn≥ p⟹n ≥ log( 1 - p )bûche( q)
n ≥ 59
n = 60n = 60
Puisque vous avez une caractérisation probabiliste de la qualité des résultats, ce résultat peut être un outil convaincant pour convaincre votre patron que la réalisation d'expériences supplémentaires générera des rendements marginaux décroissants.
LIPO et ses variantes
C'est une arrivée passionnante qui, si elle n'est pas nouvelle , l'est certainement pour moi. Elle procède en alternant entre le placement de bornes informées sur la fonction, l'échantillonnage à partir de la meilleure liaison et l'utilisation d'approximations quadratiques. Je travaille toujours sur tous les détails, mais je pense que c'est très prometteur. Ceci est une écriture-up blog agréable , et le papier est Cédric Nicolas Malherbe et Vayatis « Optimisation globale des fonctions Lipschitz . »