minima locaux vs points de selle en apprentissage profond


18

J'ai entendu Andrew Ng (dans une vidéo que je ne trouve malheureusement plus) parler de la façon dont la compréhension des minima locaux dans les problèmes d'apprentissage profond a changé en ce sens qu'ils sont maintenant considérés comme moins problématiques car dans les espaces de grande dimension (rencontrés dans apprentissage en profondeur) les points critiques sont plus susceptibles d'être des points de selle ou des plateaux que des minima locaux.

J'ai vu des papiers (par exemple celui-ci ) qui discutent des hypothèses selon lesquelles "chaque minimum local est un minimum global". Ces hypothèses sont toutes assez techniques, mais d'après ce que je comprends, elles ont tendance à imposer au réseau neuronal une structure qui le rend quelque peu linéaire.

Est-ce une affirmation valable que, dans l'apprentissage profond (y compris les architectures non linéaires), les plateaux sont plus susceptibles que les minima locaux? Et si oui, y a-t-il une intuition (éventuellement mathématique) derrière cela?

Y a-t-il quelque chose de particulier à propos de l'apprentissage en profondeur et des points de selle?


12
En ce qui concerne l'intuition mathématique de la raison pour laquelle un point de selle est plus probable qu'un minimum local, je pense en termes de fonctionnalités. Pour être un minimum local, il doit être un minimum local dans toutes les directions. En revanche, pour un point de selle, une seule direction doit être différente des autres. Il est beaucoup plus probable qu'un ou plusieurs d'entre eux aient des comportements différents des autres, par rapport au même comportement dans toutes les directions.
Paul

3
merci, maintenant que vous le dites, c'est assez évident ... voici une discussion intéressante sur le sujet
oW_

4
Andrew Ng a une vidéo sur "Le problème des minima locaux" dans la semaine 2 de son cours Coursera, "Amélioration des réseaux neuronaux profonds: réglage des hyperparamètres, régularisation et optimisation". C'est peut-être celui que vous recherchez.
2017

jetez un oeil ici
Médias

Réponses:


7

C'est simplement essayer de transmettre mon intuition, c'est-à-dire sans rigueur. Le truc avec les points de selle, c'est qu'ils sont un type d'optimum qui combine une combinaison de minima et de maxima. Étant donné que le nombre de dimensions est si important avec l'apprentissage en profondeur, la probabilité qu'un optimum se compose uniquement d'une combinaison de minima est très faible. Cela signifie que «rester coincé» dans un minimum local est rare. Au risque de simplifier à l'excès, il est plus difficile de «rester coincé» dans un point de selle car vous pouvez «glisser vers le bas l'une des dimensions». Je pense que la vidéo d'Andrew Ng à laquelle vous faites référence provient du cours Coursera sur le Deep Learning par lui.


13

Permettez-moi de donner une explication basée sur le calcul multivarié. Si vous avez suivi un cours multivarié, vous aurez entendu que, étant donné un point critique (point où le gradient est nul), la condition pour que ce point critique soit minimum est que la matrice de Hesse soit définie positive. La toile de jute étant une matrice symétrique, nous pouvons la diagonaliser. Si nous écrivons la matrice diagonale correspondant à la Hesse comme: la Hesse étant définie positive est équivalente àd1>0,,dn>0.

=[1n]
1>0,,n>0

1,,nje1/2jej, en raison de la non-linéarité élevée de la matrice de Hesse, nous prendrons donc les probabilités qu'elles soient positives comme événements indépendants.

P(1>0,,n>0)=P(1>0)P(n>0)=12n

dix81/2n

Mais qu'en est-il des maxima?

1/2n à un maximum.

P(sunele)=1-P(muneXjemum)-P(mjenjemum)=1-12n-12n=1-12n-1

n

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.