J'ai entendu Andrew Ng (dans une vidéo que je ne trouve malheureusement plus) parler de la façon dont la compréhension des minima locaux dans les problèmes d'apprentissage profond a changé en ce sens qu'ils sont maintenant considérés comme moins problématiques car dans les espaces de grande dimension (rencontrés dans apprentissage en profondeur) les points critiques sont plus susceptibles d'être des points de selle ou des plateaux que des minima locaux.
J'ai vu des papiers (par exemple celui-ci ) qui discutent des hypothèses selon lesquelles "chaque minimum local est un minimum global". Ces hypothèses sont toutes assez techniques, mais d'après ce que je comprends, elles ont tendance à imposer au réseau neuronal une structure qui le rend quelque peu linéaire.
Est-ce une affirmation valable que, dans l'apprentissage profond (y compris les architectures non linéaires), les plateaux sont plus susceptibles que les minima locaux? Et si oui, y a-t-il une intuition (éventuellement mathématique) derrière cela?
Y a-t-il quelque chose de particulier à propos de l'apprentissage en profondeur et des points de selle?