Descente en gradient sur des fonctions non convexes


9

Quelles situations connaissons-nous où la descente de gradient peut converger (soit vers un point critique, soit vers un minimum local / global) pour des fonctions non convexes?


Pour SGD sur les fonctions non convexes, un type de preuve a été examiné ici, http://www.cs.cornell.edu/courses/cs6787/2017fa/Lecture7.pdf


2
Ce document: arxiv.org/pdf/1602.04915.pdf pourrait être utile. En particulier: "si [la fonction] est deux fois différenciable en continu et satisfait la propriété stricte de la selle, alors la descente de gradient avec une initialisation aléatoire et une taille de pas constante suffisamment petite converge vers un minimiseur local ou une infinité négative presque sûrement"
David Kozak

Merci! Je me demande s'il y a un sens dans lequel le document que vous avez cité est plus faible que ce résultat plus récent, arxiv.org/abs/1709.01434 Des idées?
gradstudent

Idéalement, le papier est déjà sur ma liste à aborder cette semaine, je vous répondrai une fois que j'aurai digéré.
David Kozak

Merci! Dans l'attente d'une discussion! : D Faites-moi savoir si vous connaissez des "petits" prototypes de telles preuves de la convergence en descente de gradient non convexe!
gradstudent

Réponses:


3

Voir l'annexe B1 dans https://web.stanford.edu/~boyd/cvxbook/ .

La fonction et la contrainte peuvent être non convexes dans un programme quadratique à contraintes quadratiques, et vous pouvez toujours voir une forte dualité (elle est garantie si une condition technique connue sous le nom de qualificatif de contrainte de Slater est vérifiée)

Une forte dualité en termes faibles signifie que nous pouvons résoudre le problème d'optimisation. A partir du problème d'origine qui est appelé le primal, vous pouvez formuler un problème alternatif appelé le problème dual. La solution du double problème fournit une solution qui, dans un certain sens, est la "meilleure borne inférieure" pour vos problèmes d'origine

Dans de nombreux problèmes d'optimisation qui ne sont pas convexes, il y aura un écart entre les solutions primale et double, c'est-à-dire que la limite inférieure peut être bien en dessous de la vraie valeur optimale (même l'infini négatif). Dans certains cas particuliers, la limite est serrée. Ces cas particuliers sont ceux dans lesquels nous avons une forte dualité.

L'algorithme est une TECHNIQUE utilisée pour arriver au point optimal. La solution optimale et notre capacité à la trouver dépendent de la GÉOMÉTRIE du problème (qui est ce à quoi la dualité essaie d'arriver). Autrement dit, l'analyse indique que si l'optimisation correctement configurée converge vers un minimum.

En général, la descente de gradient convergera vers un point stationnaire. Ce point peut être un minimum local / minimum global / minimum selle. Dans seulement quelques cas non convexes, nous pouvons garantir ce à quoi il converge


Qu'est-ce qu'un QCQP et qu'est-ce que cela signifie de voir une forte dualité?
MachineEpsilon

@Sid Qu'est-ce que cela a à voir avec la convergence de la descente de gradient que je demande?
gradstudent

J'ai modifié ma réponse. Mes excuses pour la réponse concise
Sid

3

Dans cette réponse, j'explorerai deux articles intéressants et pertinents qui ont été évoqués dans les commentaires. Avant de le faire, je vais tenter de formaliser le problème et de faire la lumière sur certaines hypothèses et définitions. Je commence par un article de 2016 de Lee et al.

Nous cherchons à minimiser une fonction non convexe f:RdRqui est délimité ci-dessous. Nous exigeons qu'il soit différenciable deux fois. Nous utilisons un algorithme de descente de gradient de la forme:

xxt+1=xxtαf(xxt).

De plus, nous avons l'exigence suivante:

f(xx1)f(xx2)xx1xx2,for all xx1,xx2.

Autrement dit, nous exigeons que notre fonction soit -Lipschitz dans sa dérivée première. En anglais, cela se traduit par l'idée que notre gradient ne peut pas changer trop rapidement n'importe où dans le domaine. Cette hypothèse garantit que nous pouvons choisir une taille de pas telle que nous ne nous retrouvons jamais avec des étapes qui divergent.

Rappelons qu'un point est dit être une selle stricte si et et . Si toutes les valeurs propres de la Hesse ont le même signe, le point est un minimum (si elles sont positives) ou un maximum (si elles sont négatives). S'il y a des valeurs propres 0 alors il est dit dégénéré et ce n'est pas une selle stricte.xxf(xx)=0λmin(2f(xx))<0λmax(2f(xx))>0

L'article montre qu'avec les hypothèses ci-dessus, ainsi que l'hypothèse que tous les points de selle de la fonction sont strictement selle, la descente du gradient est garantie de converger vers un minimum.

La preuve est assez technique, mais l'intuition est la suivante: définir un ensemble , où est un point de selle. Je n'aime pas du tout cette notation. Ce qu'ils essaient de comprendre, c'est que est l'ensemble des valeurs de départ pour lesquelles la carte de gradient envoie à . Plus simplement, c'est l'ensemble des initialisations aléatoires qui convergeront finalement vers une selle.Ws(xxs)={xx:limkgk(xx)=xxs}xxsWg:RdRdxxkxxs

Leur argument repose sur le théorème du collecteur stable. Avec les hypothèses ci-dessus et un tas de mathématiques ésotériques, ils concluent que l'ensemble doit être de mesure zéro, c'est-à-dire qu'il n'y a aucune probabilité d'initialisation aléatoire sur un point qui convergera vers un point de selle. Comme nous savons que la descente de gradient sur des fonctions du type décrit dans les hypothèses avec des tailles de pas convenablement petites atteindra finalement un point critique, et nous savons maintenant (presque sûrement) qu'elle n'atterrira jamais sur une selle, nous savons qu'elle converge vers un minimiseur.Ws

Le deuxième article, plus récent, de Reddi et al. J'aborderai plus en détail. Il existe plusieurs différences. Premièrement, ils ne travaillent plus dans un cadre déterministe, optant plutôt pour le cadre d'approximation stochastique plus pertinent sur une somme finie (pensez à la descente de gradient stochastique). Les principales différences sont que la taille du pas nécessite des soins supplémentaires et que le gradient devient une variable aléatoire. De plus, ils relâchent l'hypothèse que toutes les selles sont strictes et recherchent un point stationnaire de second ordre. Autrement dit, un point tel que, (f)ϵ,and,λmin(2f(xx))ρϵ

Où est la constante de Lipschitz pour la Hesse. (C'est-à-dire, en plus de l'exigence que notre gradient ne varie pas trop rapidement, nous avons maintenant une exigence similaire sur notre Hesse. Essentiellement, les auteurs recherchent un point qui ressemble à un minimum dans la dérivée première et seconde.rho

La méthode par laquelle ils accomplissent cela consiste à utiliser une variante (choisissez votre préférée) de descente de gradient stochastique la plupart du temps. Mais partout où ils rencontrent un point où , ils utilisent une méthode de second ordre convenablement choisie pour échapper à la selle. Ils montrent qu'en incorporant ces informations de second ordre selon les besoins, ils convergeront vers un point stationnaire de second ordre.λmin(2f(xx))0

Techniquement, il s'agit d'une méthode de gradient de second ordre, qui peut ou non relever de l'algorithme qui vous intéressait.

Il s'agit d'un domaine de recherche très actif et j'ai omis de nombreuses contributions importantes (ex Ge et al. ). Je suis également nouveau sur le sujet, cette question m'a donc permis de regarder. Je suis heureux de poursuivre la discussion s'il y a un intérêt.

*** Choisi de manière appropriée signifie un point qui se révèle converger vers un point stationnaire de second ordre. Ils utilisent la méthode de Newton régularisée cubique de Nesterov et Polyak.


1
Merci pour la réponse! Deux commentaires (a) je pense que Reddi et. Al. est un meilleur résultat que Lee et. Al. parce que c'est une convergence avec un taux lié et pas seulement un résultat asymptotique. (b) Il y a ce document qui semble prétendre (et qui ressemble à ça) être meilleur que tous ces documents, opt-ml.org/papers/OPT2017_paper_16.pdf
gradstudent

D'accord, et c'est beaucoup plus simple mathématiquement. Mais le résultat Lee est intéressant pour son approche unique - je pense qu'il y aura plus de progrès dans cette direction alors que nous commençons à chercher de nouvelles façons de comprendre les surfaces non convexes de haute dimension. Je vais consulter le document auquel vous avez fait référence, merci pour cela!
David Kozak

Ajoutons encore une question: étant donné ce Reddi et. Al. papier existe-t-il encore une pertinence du papier plus célèbre du même groupe, arxiv.org/abs/1603.06160
gradstudent

Il y a certainement une pertinence car la variante de descente de gradient qu'ils utilisent dans leur article le plus récent est SVRG. Nous pourrions peut-être clore cette question et recommencer pour que la communauté ait l'avantage de participer. Je n'ai pas encore lu le document que vous avez recommandé au-delà du résumé, mais il est sur la liste et pourrait inspirer d'autres questions.
David Kozak

2

Je vais essayer de répondre à la partie "quand la descente du gradient converge-t-elle vers un point critique" de la question.

L'article "Convergence des méthodes de descente pour les problèmes semi-algébriques et apprivoisés: algorithmes proximaux, fractionnement avant-arrière et méthodes de Gauss-Seidel régularisées"

par Attouch, Bolte et Svaiter,

montre que si la fonction objectif satisfait l'inégalité de Kurdyka-Lojasiewicz (KL), alors GD et d'autres méthodes de descente convergent en fait vers un minimiseur. Notez que la condition KL est extrêmement générale mais difficile à saisir. Les fonctions qui satisfont KL sont par exemple données par des fonctions semi-algébriques (encore une fois très générales mais pas une notion simple).

Afin de donner quelques intuitions sur ces notions je vais essayer d'être moins vague mais aussi pas trop technique, donc nu avec moi. Une fonction satisfait la condition KL à un point critique s'il existe une fonction (notez que je laisse de côté certaines conditions) telles que pour tout tel que pour certains . L'intuition est qu'il existe une fonction qui reparamétrise notre fonction d'intérêtfx¯ϕ

||(ϕf)(x)||1
xf(x¯)<f(x)<rrϕfde telle sorte qu'elle soit nette autour du point critique (la dérivée est bornée à partir de zéro). Dans un certain sens, cela signifie que la fonction ne peut pas être trop plate autour de .x¯

La semialgebricité est en revanche un peu plus difficile. Le domaine qui l'étudie est également connu sous le nom de géométrie apprivoisée . Je pense que le nom apprivoisé capture très bien l'essence. Les fonctions appartenant à cette classe ne peuvent pas être arbitrairement «sauvages».


Merci! Laisse-moi chercher ça! Pouvez-vous bien vouloir ajouter quelques intuitions sur cette condition?
gradstudent

J'ai mis à jour ma réponse avec une certaine intuition. J'espère que cela aide.
xel
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.