Je ne pense pas qu'il y ait une réponse définitive à vos questions. Mais je pense que la sagesse conventionnelle va comme suit:
Fondamentalement, à mesure que l'espace d'hypothèses d'un algorithme d'apprentissage se développe, cet algorithme peut apprendre des structures plus riches et plus riches. Mais dans le même temps, l’algorithme devient plus sujet aux surajustements et son erreur de généralisation est susceptible d’augmenter.
Ainsi, pour tout ensemble de données donné, il est conseillé de travailler avec le modèle minimal disposant de la capacité suffisante pour connaître la structure réelle des données. Mais il s’agit là d’un conseil très vague, car la "structure réelle des données" est généralement inconnue et même souvent, les capacités des modèles candidats ne sont que vaguement comprises.
En ce qui concerne les réseaux de neurones, la taille de l'espace d'hypothèses est contrôlée par le nombre de paramètres. Et il semble que pour un nombre déterminé de paramètres (ou un ordre de grandeur déterminé), l’approfondissement permette aux modèles de capturer des structures plus riches (par exemple, ce document ).
Cela peut expliquer en partie le succès de modèles plus profonds avec moins de paramètres: VGGNet (à partir de 2014) a 16 couches avec ~ 140 millions de paramètres, tandis que ResNet (à partir de 2015) le bat avec 152 couches mais seulement à environ 2M paramètres.
(d’un côté, il est peut-être plus facile d’entraîner des modèles plus petits, mais je ne pense pas que ce soit un facteur important en soi, car la profondeur complique réellement l’entraînement)
Notez que cette tendance (plus de profondeur, moins de paramètres) est principalement présente dans les tâches liées à la vision et les réseaux de convolution, ce qui appelle une explication spécifique à un domaine. Alors, voici une autre perspective:
Chaque "neurone" dans une couche de convolution a un "champ récepteur", qui correspond à la taille et à la forme des entrées qui affectent chaque sortie. Intuitivement, chaque noyau capture une sorte de relation entre les entrées proches. Et les petits noyaux (qui sont courants et préférables) ont un petit champ réceptif, ils ne peuvent donc fournir des informations que sur les relations locales.
Mais au fur et à mesure que vous approfondissez, le champ récepteur de chaque neurone par rapport à une couche antérieure devient plus large. Ainsi, les couches profondes peuvent fournir des caractéristiques avec une signification sémantique globale et des détails abstraits (relations de relations ... de relations d'objets), tout en n'utilisant que de petits noyaux (qui régularisent les relations apprises par le réseau, et qui aident à la convergence et à la généralisation).
Ainsi, l’utilité des réseaux convolutionnels profonds dans la vision par ordinateur peut être partiellement expliquée par la structure spatiale des images et des vidéos. Il est possible que le temps nous dise que, pour différents types de problèmes, ou pour les architectures non convolutives, la profondeur ne fonctionne pas bien.