Comme l'a mentionné Jed Brown, le lien entre la descente de gradient dans l'optimisation non linéaire et le pas de temps des systèmes dynamiques est redécouvert avec une certaine fréquence (ce qui est compréhensible, car il s'agit d'un lien très satisfaisant avec l'esprit mathématique car il relie deux champs apparemment différents). Cependant, il s'avère rarement être une connexion utile , surtout dans le contexte que vous décrivez.
Dans les problèmes inverses, les gens sont intéressés par la résolution de l'équation de l' opérateur (mal posé) avec pas dans la plage de . (Votre problème de contrôle optimal peut être vu comme une instance de celui-ci avec et .) Plusieurs stratégies de régularisation (telles que Tikhonov ou Landweber) peuvent être interprétées comme un seul pseudo-temps étape d'une certaine classe. L'idée est alors d'utiliser l'interprétation du paramètre de régularisation comme longueur de pas pour obtenir des règles de choix (adaptatif, a posteriori) du paramètre - un problème fondamental dans les problèmes inverses - et éventuellement de faire plusieurs pseudo-temps pour approche la vraie solution non régularisée (comme pourF(u)=yδyδFF=A−1yδ=y0suite numérique ). Ceci est parfois appelé régularisation continue , et est généralement discuté dans le contexte des méthodes de level set; voir, par exemple, le chapitre 6.1 de Kaltenbacher, Scherzer, Neubauer: Méthodes de régularisation itérative pour les problèmes non linéaires mal posés (de Gruyter, 2008).
Un deuxième contexte dans cette idée apparaît à plusieurs reprises est l'optimisation non linéaire: si vous regardez une étape de descente de gradient pour ,
vous pouvez alors l'interpréter comme une étape d'Euler vers l'avant pour le système dynamique
Comme l'a souligné Jed Brown, cela ne donne à première vue que l'observation peu surprenante que cette méthode converge, à condition que les pseudo-pas de temps soient suffisamment petits. La partie intéressante survient lorsque vous regardez le système dynamique et que vous vous demandez quelles sont les propriétés de la solution continue du flux dit de gradientminxf(x)
xk+1=xk−γk∇f(xk),
x˙(t)=−∇f(x(t)),x(0)=x0.
γkx(t)a (ou devrait avoir), indépendamment de la descente du gradient, et si cela ne pourrait pas conduire à des méthodes de pas de temps (et donc d'optimisation) plus appropriées que Euler standard. Quelques exemples du haut de ma tête:
Existe-t-il un espace de fonction naturel dans lequel vit le flux de gradient? Si c'est le cas, votre pas de gradient doit être pris à partir du même espace (c'est-à-dire que la discrétisation doit être conforme). Cela conduit, par exemple, au calcul des représentations Riesz du gradient par rapport à différents produits internes (parfois appelés gradients de Sobolev ) et, en pratique, à des itérations préconditionnées qui convergent beaucoup plus rapidement.
Peut-être que ne devrait pas appartenir à un espace vectoriel, mais à une variété (par exemple, des matrices définies positives symétriques), ou le flux de gradient devrait conserver une certaine norme de . Dans ce cas, vous pouvez essayer d'appliquer des schémas de pas de temps préservant la structure (par exemple, impliquant un retrait par rapport à un groupe de Lie approprié ou à un intégrateur géométrique).xx
Si n'est pas différenciable mais convexe, le pas d'Euler vers l'avant correspond à une méthode de descente de sous-gradient qui peut être très lente en raison des restrictions de taille de pas. D'un autre côté, une étape d'Euler implicite correspond à une méthode de point proximal , pour laquelle aucune restriction de ce type ne s'applique (et qui est ainsi devenue très populaire, par exemple, dans le traitement d'image).f
Dans la même veine, ces méthodes peuvent être considérablement accélérées par des étapes d'extrapolation. Une façon de les motiver est d'observer que les méthodes de premier ordre standard souffrent d'avoir à faire de nombreux petits pas près des minimiseurs, parce que les directions du gradient "oscillent" (pensez à l'illustration standard pour laquelle les gradients conjugués surclassent la descente la plus raide). Pour y remédier, on peut "amortir" l'itération en ne résolvant pas un système dynamique du premier ordre, mais un système du second ordre amorti :
pour convenablement choisi . Avec une discrétisation appropriée, cela conduit à une itération (connue sous le nom de méthode de balle lourde de Polyak ) de la forme
a1x¨(t)+a2x˙(t)=−∇f(x(t))
a1,a2xk+1=xk−γk∇f(xk)+αk(xk−xk−1)
(avec selon ). Des idées similaires existent pour les méthodes du point proximal, voir, par exemple, l'article http://arxiv.org/pdf/1403.3522.pdf de Dirk Lorenz et Thomas Pock.γk,αka1,a2
(Je dois ajouter qu'à ma connaissance, dans la plupart de ces cas, l'interprétation en tant que système dynamique n'était pas strictement nécessaire pour la dérivation ou la preuve de convergence de l'algorithme; on pourrait soutenir que des idées comme «implicites vs explicites» ou dérivées de Lie sont en fait plus fondamentaux que les systèmes dynamiques ou les méthodes de descente de gradient. Pourtant, cela ne fait jamais de mal d'avoir un autre point de vue pour regarder un problème.)
EDIT: Je suis juste tombé sur un excellent exemple du deuxième contexte, où l'interprétation ODE est utilisée pour déduire les propriétés de la méthode extragradient de Nesterov et suggérer des améliorations:
http://arxiv.org/pdf/1503.01243.pdf
(Notez que c'est aussi un exemple du point de Jed Brown, en ce sens que les auteurs redécouvrent essentiellement le point 4 ci-dessus sans avoir apparemment connaissance de l'algorithme de Polyak.)
EDIT 2: Et pour vous indiquer jusqu'où vous pouvez aller, voir page 5 de http://arxiv.org/pdf/1509.03616v1.pdf .