Dans cette réponse, j'explorerai deux articles intéressants et pertinents qui ont été évoqués dans les commentaires. Avant de le faire, je vais tenter de formaliser le problème et de faire la lumière sur certaines hypothèses et définitions. Je commence par un article de 2016 de Lee et al.
Nous cherchons à minimiser une fonction non convexe f:Rd→Rqui est délimité ci-dessous. Nous exigeons qu'il soit différenciable deux fois. Nous utilisons un algorithme de descente de gradient de la forme:
xxt+1=xxt−α∇f(xxt).
De plus, nous avons l'exigence suivante:
∥∇f(xx1)−∇f(xx2)∥≤ℓ∥xx1−xx2∥,for all xx1,xx2.
Autrement dit, nous exigeons que notre fonction soit -Lipschitz dans sa dérivée première. En anglais, cela se traduit par l'idée que notre gradient ne peut pas changer trop rapidement n'importe où dans le domaine. Cette hypothèse garantit que nous pouvons choisir une taille de pas telle que nous ne nous retrouvons jamais avec des étapes qui divergent.ℓ
Rappelons qu'un point est dit être une selle stricte si et et . Si toutes les valeurs propres de la Hesse ont le même signe, le point est un minimum (si elles sont positives) ou un maximum (si elles sont négatives). S'il y a des valeurs propres 0 alors il est dit dégénéré et ce n'est pas une selle stricte.xx∇f(xx)=0λmin(∇2f(xx))<0λmax(∇2f(xx))>0
L'article montre qu'avec les hypothèses ci-dessus, ainsi que l'hypothèse que tous les points de selle de la fonction sont strictement selle, la descente du gradient est garantie de converger vers un minimum.
La preuve est assez technique, mais l'intuition est la suivante: définir un ensemble , où est un point de selle. Je n'aime pas du tout cette notation. Ce qu'ils essaient de comprendre, c'est que est l'ensemble des valeurs de départ pour lesquelles la carte de gradient envoie à . Plus simplement, c'est l'ensemble des initialisations aléatoires qui convergeront finalement vers une selle.Ws(xxs)={xx:limkgk(xx)=xxs}xxsWg:Rd→Rdxxkxxs
Leur argument repose sur le théorème du collecteur stable. Avec les hypothèses ci-dessus et un tas de mathématiques ésotériques, ils concluent que l'ensemble doit être de mesure zéro, c'est-à-dire qu'il n'y a aucune probabilité d'initialisation aléatoire sur un point qui convergera vers un point de selle. Comme nous savons que la descente de gradient sur des fonctions du type décrit dans les hypothèses avec des tailles de pas convenablement petites atteindra finalement un point critique, et nous savons maintenant (presque sûrement) qu'elle n'atterrira jamais sur une selle, nous savons qu'elle converge vers un minimiseur.Ws
Le deuxième article, plus récent, de Reddi et al. J'aborderai plus en détail. Il existe plusieurs différences. Premièrement, ils ne travaillent plus dans un cadre déterministe, optant plutôt pour le cadre d'approximation stochastique plus pertinent sur une somme finie (pensez à la descente de gradient stochastique). Les principales différences sont que la taille du pas nécessite des soins supplémentaires et que le gradient devient une variable aléatoire. De plus, ils relâchent l'hypothèse que toutes les selles sont strictes et recherchent un point stationnaire de second ordre. Autrement dit, un point tel que,
∥∇(f)∥≤ϵ,and,λmin(∇2f(xx))≥−ρϵ−−√
Où est la constante de Lipschitz pour la Hesse. (C'est-à-dire, en plus de l'exigence que notre gradient ne varie pas trop rapidement, nous avons maintenant une exigence similaire sur notre Hesse. Essentiellement, les auteurs recherchent un point qui ressemble à un minimum dans la dérivée première et seconde.rho
La méthode par laquelle ils accomplissent cela consiste à utiliser une variante (choisissez votre préférée) de descente de gradient stochastique la plupart du temps. Mais partout où ils rencontrent un point où , ils utilisent une méthode de second ordre convenablement choisie pour échapper à la selle. Ils montrent qu'en incorporant ces informations de second ordre selon les besoins, ils convergeront vers un point stationnaire de second ordre.λmin(∇2f(xx))≤0
Techniquement, il s'agit d'une méthode de gradient de second ordre, qui peut ou non relever de l'algorithme qui vous intéressait.
Il s'agit d'un domaine de recherche très actif et j'ai omis de nombreuses contributions importantes (ex Ge et al. ). Je suis également nouveau sur le sujet, cette question m'a donc permis de regarder. Je suis heureux de poursuivre la discussion s'il y a un intérêt.
*** Choisi de manière appropriée signifie un point qui se révèle converger vers un point stationnaire de second ordre. Ils utilisent la méthode de Newton régularisée cubique de Nesterov et Polyak.