Les réseaux résiduels profonds doivent-ils être considérés comme un ensemble de réseaux?

12

La question porte sur l'architecture des réseaux résiduels profonds ( ResNets ). Le modèle qui a remporté la 1ère place au "Large Scale Visual Recognition Challenge 2015" (ILSVRC2015) sur les cinq pistes principales:

Classification ImageNet: «ultra-profonds» (citation de Yann) réseaux à 152 couches

Détection ImageNet: 16% meilleure que la 2e

Localisation ImageNet: 27% meilleure que la 2e

Détection COCO: 11% meilleure que la 2e

Segmentation COCO: 12% de mieux que la 2e

Source: Concours MSRA @ ILSVRC & COCO 2015 (présentation, 2 ème diapo)

Ce travail est décrit dans l'article suivant:

Apprentissage résiduel profond pour la reconnaissance d'images (2015, PDF)

Équipe de recherche Microsoft (développeurs de ResNets: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun) dans leur article:

" Mappages d'identité dans les réseaux résiduels profonds (2016) "

déclarent que la profondeur joue un rôle clé:

" Nous obtenons ces résultats via un concept simple mais essentiel - aller plus loin. Ces résultats démontrent le potentiel de repousser les limites de la profondeur. "

Il est également souligné dans leur présentation (plus profond - mieux):

- "Un modèle plus profond ne devrait pas avoir une erreur d'entraînement plus élevée."
- "Deeper ResNets ont une erreur de formation plus faible, et aussi une erreur de test plus faible."
- "Deeper ResNets ont une erreur plus faible."
- "Tous bénéficient davantage de fonctionnalités plus profondes - des gains cumulatifs!"
- "Plus profond c'est encore mieux."

Voici la structure du résidu de 34 couches (pour référence):

Mais récemment, j'ai trouvé une théorie qui introduit une nouvelle interprétation des réseaux résiduels montrant qu'ils sont des ensembles exponentiels:

Les réseaux résiduels sont des ensembles exponentiels de réseaux relativement peu profonds (2016)

Les réseaux profonds sont décrits comme de nombreux réseaux peu profonds dont les sorties sont regroupées à différentes profondeurs. Il y a une photo dans l'article. Je le joins avec explication:

Les réseaux résiduels sont conventionnellement représentés par (a), qui est une représentation naturelle de l'équation (1). Lorsque nous étendons cette formulation à l'équation (6), nous obtenons une vue non élucidée d'un réseau résiduel à 3 blocs (b). De ce point de vue, il apparaît que les réseaux résiduels ont O (2 ^ n) chemins implicites reliant entrée et sortie et que l'ajout d'un bloc double le nombre de chemins.

En conclusion de l'article, il est indiqué:

Ce n'est pas la profondeur, mais l'ensemble qui rend les réseaux résiduels solides . Les réseaux résiduels repoussent les limites de la multiplicité du réseau et non la profondeur du réseau. Notre vue proposée et l'étude des lésions montrent que les réseaux résiduels sont un ensemble implicite de réseaux exponentiellement nombreux. Si la plupart des chemins qui contribuent au gradient sont très courts par rapport à la profondeur globale du réseau, une profondeur accrue ne peut pas à elle seule être la caractéristique clé des réseaux résiduels. Nous pensons désormais que la multiplicité , l'expressibilité du réseau en termes de nombre de chemins, joue un rôle clé .

Mais ce n'est qu'une théorie récente qui peut être confirmée ou réfutée. Il arrive parfois que certaines théories soient réfutées et que des articles soient retirés.

Faut-il penser aux ResNets profonds comme un ensemble après tout? L'ensemble ou la profondeur rend les réseaux résiduels si forts? Est-il possible que même les développeurs eux-mêmes ne perçoivent pas tout à fait ce que leur propre modèle représente et quel est le concept clé qu'il contient?

— Erba Aitbayev
source

4

Imaginez qu'un génie vous accorde trois vœux. Parce que vous êtes un ambitieux chercheur en apprentissage en profondeur, votre premier souhait est une solution parfaite pour un NN à 1000 couches pour Image Net, qui apparaît rapidement sur votre ordinateur portable.

Maintenant, une solution induite par le génie ne vous donne aucune intuition sur la façon dont elle pourrait être interprétée comme un ensemble, mais croyez-vous vraiment que vous avez besoin de 1000 couches d'abstraction pour distinguer un chat d'un chien? Comme les auteurs du "document d'ensemble" le mentionnent eux-mêmes, ce n'est certainement pas vrai pour les systèmes biologiques.

Bien sûr, vous pourriez gaspiller votre deuxième souhait sur une décomposition de la solution en un ensemble de réseaux, et je suis presque sûr que le génie serait en mesure d'obliger. La raison étant qu'une partie de la puissance d'un réseau profond proviendra toujours de l'effet d'ensemble.

Il n'est donc pas surprenant que deux astuces très réussies pour former des réseaux profonds, les réseaux de décrochage et les réseaux résiduels, aient une interprétation immédiate comme ensemble implicite. Donc "ce n'est pas de la profondeur, mais l'ensemble" me semble être une fausse dichotomie. Vous ne diriez vraiment que si vous croyiez honnêtement que vous avez besoin de centaines ou de milliers de niveaux d'abstraction pour classer les images avec une précision humaine.

Je vous suggère d'utiliser le dernier souhait pour autre chose, peut-être une pinacolada.

— BlindKungFuMaster
source

0

Les réseaux résiduels aléatoires pour de nombreuses non-linéarités telles que tanh vivent au bord du chaos, en ce que la distance cosinusoïdale de deux vecteurs d'entrée convergera vers un point fixe à un taux polynomial, plutôt qu'à un taux exponentiel, comme avec les réseaux tanh vanille. Ainsi, un réseau résiduel typique traversera lentement la limite stable-chaotique avec la profondeur, planant autour de cette limite pour de nombreuses couches. Fondamentalement, il n'oublie pas «très rapidement» la géométrie de l'espace d'entrée. Donc, même si nous les rendons profondément profonds, ils fonctionnent mieux sur les réseaux de vanille.

Pour plus d'informations sur la propagation des informations dans les réseaux résiduels - Réseaux résiduels à champ moyen: Aux confins du chaos

— Snehal Reddy
source