Nous définissons une architecture de goulot d'étranglement comme le type trouvé dans le document ResNet où [deux couches conv 3x3] sont remplacées par [une conv 1x1, une conv 3x3 et une autre couche conv 1x1].
Je comprends que les couches conv 1x1 sont utilisées comme une forme de réduction de dimension (et de restauration), ce qui est expliqué dans un autre article . Cependant, je ne sais pas pourquoi cette structure est aussi efficace que la disposition d'origine.
Voici quelques bonnes explications: quelle longueur de foulée est utilisée et à quelles couches? Quels sont les exemples de dimensions d'entrée et de sortie de chaque module? Comment les cartes d'entités 56x56 sont-elles représentées dans le diagramme ci-dessus? Le 64-d fait-il référence au nombre de filtres, pourquoi est-ce différent des filtres 256-d? Combien de poids ou de FLOP sont utilisés à chaque couche?
Toute discussion est grandement appréciée!