Je travaille actuellement sur la recréation des résultats de cet article . Dans cet article, ils décrivent une méthode d'utilisation de CNN pour l'extraction de caractéristiques et ont un modèle acoustique Dnn-hmm et pré-formé à l'aide de RBM.
La sous-section A de la section III indique différentes manières de représenter les données d'entrée. J'ai décidé d'empiler verticalement les tracés spectraux des deltas statiques, delta et delta.
Le document décrit ensuite comment le réseau devrait être. Ils déclarent qu'ils utilisent un réseau convolutionnel, mais rien sur la structure du réseau?. De plus, le réseau est-il toujours appelé un pli convolutif? que je suis sûr que je vois une différence par rapport à un réseau neuronal convolutionnel de réseau ordinaire (cnn).
Le papier indique ceci concernant la différence:
(de la section III sous-section B)
Une couche de convolution diffère cependant d'une couche cachée standard entièrement connectée sur deux aspects importants. Tout d'abord, chaque unité convolutionnelle reçoit une entrée uniquement à partir d'une zone locale de l'entrée. Cela signifie que chaque unité représente certaines caractéristiques d'une région locale de l'entrée. Deuxièmement, les unités de la nappe de convolution peuvent elles-mêmes être organisées en un certain nombre de cartes d'entités, où toutes les unités de la même carte d'entités partagent les mêmes poids mais reçoivent des entrées de différents emplacements de la couche inférieure
Une autre chose que je me demandais est de savoir si le document indique réellement combien de paramètres de sortie sont nécessaires pour alimenter le modèle acoustique dnn-hmm. Je n'arrive pas à décoder le nombre de filtres, la taille des filtres .. dans les détails généraux du réseau?