En quoi un pli convolutionnel diffère-t-il d'un réseau convolutionnel ordinaire?


9

Je travaille actuellement sur la recréation des résultats de cet article . Dans cet article, ils décrivent une méthode d'utilisation de CNN pour l'extraction de caractéristiques et ont un modèle acoustique Dnn-hmm et pré-formé à l'aide de RBM.

La sous-section A de la section III indique différentes manières de représenter les données d'entrée. J'ai décidé d'empiler verticalement les tracés spectraux des deltas statiques, delta et delta.

Donc en tant que tel: entrez la description de l'image ici

Le document décrit ensuite comment le réseau devrait être. Ils déclarent qu'ils utilisent un réseau convolutionnel, mais rien sur la structure du réseau?. De plus, le réseau est-il toujours appelé un pli convolutif? que je suis sûr que je vois une différence par rapport à un réseau neuronal convolutionnel de réseau ordinaire (cnn).

Le papier indique ceci concernant la différence:

(de la section III sous-section B)

Une couche de convolution diffère cependant d'une couche cachée standard entièrement connectée sur deux aspects importants. Tout d'abord, chaque unité convolutionnelle reçoit une entrée uniquement à partir d'une zone locale de l'entrée. Cela signifie que chaque unité représente certaines caractéristiques d'une région locale de l'entrée. Deuxièmement, les unités de la nappe de convolution peuvent elles-mêmes être organisées en un certain nombre de cartes d'entités, où toutes les unités de la même carte d'entités partagent les mêmes poids mais reçoivent des entrées de différents emplacements de la couche inférieure

Une autre chose que je me demandais est de savoir si le document indique réellement combien de paramètres de sortie sont nécessaires pour alimenter le modèle acoustique dnn-hmm. Je n'arrive pas à décoder le nombre de filtres, la taille des filtres .. dans les détails généraux du réseau?


Je suis aussi intéressé par cela. Je suppose que je peux commencer une prime pour accélérer le processus.
Lamda

Réponses:


4

Il semble qu'une nappe convolutionnelle soit exactement la même qu'une couche convolutionnelle ordinaire. D'après leur article, ils soutiennent que le terme «couche CNN» fait généralement référence à une couche convolutionnelle suivie d'une couche de regroupement. Afin de réduire la confusion, ils appellent la partie convolutionnelle un "pli de convolution" et la partie de mise en commun un "pli de mise en commun":

Dans la terminologie CNN, une paire de couches de convolution et de mise en commun sur la figure 2 successivement est généralement désignée comme une «couche» CNN. Un CNN profond se compose donc de deux ou plusieurs de ces paires successivement. Pour éviter toute confusion, nous désignerons respectivement les couches de convolution et de regroupement comme des nappes de convolution et de regroupement.

Ironiquement, cela a accru la confusion, conduisant à ce poste. À l'époque, je suppose qu'il n'était pas courant d'avoir plusieurs couches convolutives de suite avant une couche de regroupement, mais cela se voit souvent dans les architectures modernes.

Pour répondre à votre autre question sur la structure du réseau; ils indiquent la structure du réseau qu'ils utilisent dans la section Expériences (section VB). Pour espérer réduire la confusion, j'ai remplacé le mot "ply" par "layer":

Dans ces expériences, nous avons utilisé une convolution [couche], une mise en commun [couche] et deux couches cachées entièrement connectées sur le dessus. Les couches entièrement connectées avaient 1000 unités chacune. Les paramètres de convolution et de regroupement étaient les suivants: taille de regroupement de 6, taille de décalage de 2, taille de filtre de 8, 150 cartes de caractéristiques pour FWS et 80 cartes de caractéristiques par bande de fréquences pour LWS.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.