Notre compréhension des réseaux de neurones comporte deux lacunes principales: la dureté d'optimisation et les performances de généralisation.
La formation d'un réseau de neurones nécessite la résolution d'un problème d'optimisation hautement non convexe dans les grandes dimensions. Les algorithmes d’entraînement actuels sont tous basés sur la descente de gradient, ce qui garantit uniquement la convergence vers un point critique (minimum local ou selle). En fait, Anandkumar & Ge 2016 a récemment prouvé que trouver même un minimum local est NP-difficile, ce qui signifie que (en supposant que P! = NP), il existe "mauvais", difficile à échapper, des points de selle dans la surface d'erreur.
Pourtant, ces algorithmes de formation sont empiriquement efficaces pour de nombreux problèmes pratiques et nous ne savons pas pourquoi.
Il y a eu des articles théoriques tels que Choromanska et al. 2016 et Kawaguchi 2016qui prouvent que, sous certaines hypothèses, les minima locaux sont essentiellement aussi bons que les minima globaux, mais les hypothèses qu’ils émettent sont quelque peu irréalistes et ne traitent pas la question des points faibles.
L’autre grande lacune dans notre compréhension concerne les performances de généralisation: dans quelle mesure le modèle fonctionne-t-il avec des exemples inédits non observés au cours de la formation? Il est facile de montrer que, dans la limite d’un nombre infini d’exemples d’entraînement (échantillonné dans une distribution stationnaire), l’erreur d’apprentissage converge vers l’erreur attendue sur de nouveaux exemples (à condition que vous puissiez vous entraîner à l’optimum global). Nous n’avons pas d’exemples d’entraînement infinis, mais combien d’exemples sont nécessaires pour obtenir une différence donnée entre erreur d’apprentissage et erreur de généralisation. La théorie de l'apprentissage statistique étudie ces limites de généralisation.
Empiriquement, la formation d’un grand réseau de neurones moderne nécessite un grand nombre d’exemples de formation (Big Data, si vous aimez les mots à la mode), mais pas celle d’une taille énorme pour être pratiquement irréalisable. Mais si vous appliquez les limites les plus connues de la théorie de l'apprentissage statistique (par exemple, Gao et Zhou 2014 ), vous obtenez généralement ces nombres énormes infaisables. Par conséquent, ces limites sont très loin d'être étroites, du moins pour les problèmes pratiques.
Une des raisons pourrait être que ces limites supposent très peu de choses sur la distribution génératrice de données. Elles reflètent donc la pire performance face aux environnements contradictoires, alors que les environnements "naturels" ont tendance à être plus "intelligibles".
Il est possible d'écrire des limites de généralisation dépendantes de la distribution, mais nous ne savons pas formaliser formellement une distribution sur des environnements "naturels". Des approches telles que la théorie de l'information algorithmique ne sont toujours pas satisfaisantes.
Par conséquent, nous ne savons toujours pas pourquoi les réseaux de neurones peuvent être formés sans surapprentissage.
En outre, il convient de noter que ces deux problèmes principaux semblent être liés de manière encore mal comprise: les limites de généralisation tirées de la théorie de l’apprentissage statistique supposent que le modèle est formé à l’optimum global de l’ensemble de formation, mais dans un contexte pratique. ne formerait jamais un réseau de neurones avant la convergence, même à un point de selle, car cela provoquerait généralement un surajustement. Au lieu de cela, vous arrêtez de vous entraîner lorsque l'erreur sur un jeu de validation conservé (qui est un proxy pour l'erreur de généralisation) cesse de s'améliorer. Ceci est connu comme "arrêt précoce".
Donc, dans un sens, toutes ces recherches théoriques sur la délimitation de l’erreur de généralisation de l’optimum global risquent d’être bien dénuées de pertinence: non seulement nous ne pouvons pas la trouver efficacement, mais même si nous le pouvions, nous ne voudrions pas, car cela aurait des résultats pires nouveaux exemples que de nombreuses solutions "sous-optimales".
Il se peut que la dureté de l'optimisation ne soit pas un défaut du réseau de neurones; au contraire, les réseaux de neurones peuvent fonctionner du tout précisément parce qu'ils sont difficiles à optimiser.
Toutes ces observations sont empiriques et aucune théorie valable ne les explique. Il n’existe pas non plus de théorie expliquant comment définir les hyperparamètres des réseaux de neurones (largeur et profondeur de couche cachée, vitesse d’apprentissage, détails architecturaux, etc.). Les praticiens utilisent leur intuition affinée par l'expérience et par de nombreux essais et erreurs pour proposer des valeurs efficaces, tandis qu'une théorie pourrait nous permettre de concevoir des réseaux de neurones de manière plus systématique.