Comprendre que «presque tous les minimums locaux ont une valeur de fonction très similaire à l’optimum global»


46

Dans un récent post de blog de Rong Ge, il était dit que:

On pense que pour de nombreux problèmes, dont l’apprentissage de réseaux profonds, presque tous les minimums locaux ont une valeur fonctionnelle très proche de l’optimum global, et qu’il est donc suffisant de trouver un minimum local.

D'où vient cette croyance?


15
Je serai surpris si ce n'est pas une conclusion empirique.
usεr11852 dit Réintégrer Monic

Réponses:


69

Un article récent, intitulé Les surfaces de perte des réseaux multicouches, offre quelques explications possibles. De leur résumé (gras est le mien):

"Nous supposons que le recuit simulé et le SGD convergent vers la bande des points critiques faibles et que tous les points critiques trouvés correspondent à des minima locaux de haute qualité mesurés par l'erreur de test. Ceci met en évidence une différence majeure entre les réseaux de grande et de petite taille. où pour la dernière mauvaise qualité des minima locaux ont une probabilité non nulle d'être récupéré. Enfin, nous montrons que la récupération du minimum global devient plus difficile que la taille du réseau augmente et qu'il est non pertinent en pratique comme minimum global souvent conduit à surapprentissage « .

Un grand nombre de personnes influentes dans l'apprentissage en profondeur (Yann LeCunn et Yoshua Bengio, pour n'en nommer que quelques-unes) et certains chercheurs relevant davantage de l'angle mathématique (Rong Ge et d'autres collaborateurs de Sanjeev Arora) ont discuté et ont exploré ces idées.

Dans l'article référencé ci-dessus, voir la figure 3, qui illustre un phénomène de bande / concentration des valeurs de minimum locales, car les réseaux comportent davantage d'unités cachées. Le regroupement / concentration représente une preuve empirique que, pour les modèles plus profonds ou plus grands, un minimum local est "assez bon", car leurs valeurs de perte sont à peu près similaires. Et surtout, leur perte est plus proche du minimum global à mesure que le modèle se complexifie (dans ce cas, plus large, mais plus profond dans la pratique).

En outre, ils utilisent un modèle en verre de spin, dont ils affirment même qu’ils ne sont qu’un modèle et ne sont pas nécessairement représentatifs de la réalité, pour montrer qu’atteindre le minimiseur global à partir d’un minimum local peut prendre une longueur exponentielle:

"Afin de trouver un minimum plus bas, nous devons passer par un point de selle. Par conséquent, nous devons monter au moins au niveau où il y a un nombre égal de points de selle pour avoir une chance décente de trouver un chemin qui pourrait éventuellement prendre Nous passons à un autre minimum local. Ce processus prend énormément de temps et, dans la pratique, il est impossible de trouver le minimum global ".

La recherche sur Rong Ge est centrée sur le franchissement de points de selle. Yoshua Bengio et ses collaborateurs ont posé une hypothèse assez audacieuse de Saddle Point:

Nous soutenons ici, sur la base des résultats de la physique statistique, de la théorie des matrices aléatoires, de la théorie des réseaux neuronaux et des preuves empiriques, qu'une difficulté plus profonde et plus profonde provient de la prolifération des points de selle, et non des minima locaux, en particulier des problèmes de grande dimension et présentant un intérêt pratique . Ces points de selle sont entourés de plateaux à forte erreur qui peuvent considérablement ralentir l'apprentissage et donner une impression illusoire de l'existence d'un minimum local.

source here: Identifier et s'attaquer au problème du point d'équilibre dans l'optimisation non convexe de grande dimension.

Dans une certaine mesure, les deux approches ci-dessus ne sont pas exactement les mêmes (l'hypothèse de Saddle Point pourrait interroger ce qui est réellement un minimum local et un point de selle mal conditionné avec une très longue région de plateau?). L’hypothèse de Saddle Point est qu’il est possible de concevoir des méthodes d’optimisation permettant de casser les points de selle, par exemple Saddle-Free Newton de l’article Bengio, afin d’accélérer potentiellement la convergence et même d’atteindre l’optimum global. Le premier article Multilayer Loss Surface n’a pas vraiment pour objectif d’atteindre l’optimum global, mais pense en réalité qu’il présente des propriétés de surapprentissage médiocres. Curieusement, les deux articles utilisent des idées issues de la physique statistique et des modèles de verre de spin.

Mais ils sont en quelque sorte liés dans le sens où les deux articles pensent que pour atteindre le minimiseur global, il faut surmonter le défi d'optimisation des points de selle. Le premier article pense simplement que les minima locaux suffisent.

Il est juste de se demander si les méthodes Momentum et d’autres nouveaux algorithmes d’optimisation permettant d’estimer certaines propriétés de courbure du deuxième ordre peuvent échapper aux points de selle. Une animation célèbre d'Alec Radford ici .

Pour répondre à votre question: "d'où vient cette croyance", je pense personnellement que cela vient du fait qu'il est possible d'utiliser différentes graines aléatoires pour apprendre différents poids, mais les réseaux correspondants ont des performances quantitatives similaires. Par exemple, si vous définissez deux semences aléatoires différentes pour l'initialisation du poids de Glorot, vous apprendrez probablement des poids différents, mais si vous vous entraînez à l'aide de méthodes d'optimisation similaires, les performances des moustiquaires seront similaires. Une croyance populaire répandue dans le folklore est que le paysage de l'optimisation est similaire à celui d'une boîte à œufs, un autre bon billet de blog à ce sujet: Plus de minima locaux? avec l'analogie de la boîte à œufs.

Edit: Je voulais juste préciser que l'analogie de la boîte à œufs n'est pas vraie, sinon il n'y aurait pas besoin de technique d'élan ou d'autres techniques d'optimisation plus avancées. Mais on sait que SGD ne fonctionne pas aussi bien que SGD + Momentum ou des algorithmes d'optimisation plus modernes, peut-être en raison de l'existence de points de selle.


14
+1 Une réponse remarquablement informative et faisant autorité - en quelques paragraphes faciles à comprendre, il semble capturer les idées et les orientations actuelles dans un sous-champ important.
whuber

Merci pour votre réponse. Puisque vous avez parlé de Yann LeCun, pourriez-vous indiquer une référence particulière de ce dernier qui traite de ces idées ou d’idées similaires?
John Donn

2
Hey John: L’article sur la surface de perte des réseaux multicouches auquel j’ai fait référence est co-écrit par Yann. Un autre article similaire dont Yann est le co-auteur est Explorations sur des paysages de grande dimension . Les deux articles sont assez similaires, celui que j'ai cité à l'origine semble être plus populaire.
Indie AI

Le lien "Plus de minimums locaux" est mort. Grâce à une recherche rapide sur Google, je n'ai pas pu trouver le blog auquel il fait référence. La publication de blog est-elle hors ligne? Ou simplement déplacé?
LMB
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.