Supposons que j’ai une couche de convection qui délivre un tenseur en forme de où:(N,F,H,W)
- N est la taille du lot
- F est le nombre de filtres convolutifs
- H,W sont les dimensions spatiales
Supposons que cette sortie alimente une couche de avec des filtres 1x1, un remplissage nul et une foulée 1. La sortie de cette couche de convection 1x1 aura alors une forme .F1(N,F1,H,W)
Vous pouvez donc utiliser des filtres de convection 1x1 pour modifier la dimensionnalité dans l’espace du filtre. Si nous augmentons la dimensionnalité, si nous diminuons la dimensionnalité, dans la dimension du filtre.F1>FF1<F
En effet, dans l'article de Google Inception intitulé Going Deeper with Convolutions , ils déclarent (en gras, c'est le mien, pas l'auteur original):
Un gros problème avec les modules ci-dessus, du moins sous cette forme naïve, est que même un nombre modeste de convolutions 5x5 peut être prohibitif au-dessus d’une couche convolutive avec un grand nombre de filtres.
Cela nous amène à la deuxième idée de l’architecture proposée: appliquer judicieusement des réductions de dimensions et des projections chaque fois que les exigences en calcul augmenteraient trop. Ceci est basé sur le succès des imbrications: même les imbriquées de petites dimensions peuvent contenir beaucoup d’informations sur un patch d’image relativement grand ... Des convolutions 1x1 sont utilisées pour calculer les réductions avant les coûteuses convolutions 3x3 et 5x5. En plus d'être utilisées en tant que réductions, elles incluent également l'utilisation de l'activation linéaire rectifiée, ce qui en fait un double objectif.
Ainsi, dans l'architecture Inception, nous utilisons les filtres de convolution 1x1 pour réduire la dimensionnalité dans la dimension du filtre. Comme je l'ai expliqué ci-dessus, ces couches de convection 1x1 peuvent en général être utilisées pour modifier la dimensionnalité de l'espace de filtre (augmentation ou diminution) et dans l'architecture Inception, nous voyons l'efficacité de ces filtres 1x1 pour la réduction de la dimensionnalité, explicitement dans l'espace de dimension du filtre. , pas l'espace de dimension spatiale.
Peut-être existe-t-il d'autres interprétations des filtres de convergence 1x1, mais je préfère cette explication, en particulier dans le contexte de l'architecture Google Inception.