Comment les noyaux sont-ils appliqués aux cartes de caractéristiques pour produire d'autres cartes de caractéristiques?


44

J'essaie de comprendre la partie convolution des réseaux de neurones convolutionnels. En regardant la figure suivante:

entrez la description de l'image ici

Je n'ai aucun problème à comprendre la première couche de convolution où nous avons 4 noyaux différents (de taille ), que nous convolrons avec l'image d'entrée pour obtenir 4 cartes de caractéristiques.k×k

Ce que je ne comprends pas, c’est la couche de convolution suivante, où nous passons de 4 cartes de caractéristiques à 6 cartes de caractéristiques. Je suppose que nous avons 6 noyaux dans cette couche (donnant par conséquent 6 cartes de caractéristiques en sortie), mais comment ces noyaux fonctionnent-ils sur les 4 cartes de caractéristiques présentées en C1? Les noyaux sont-ils en 3 dimensions ou en 2 dimensions et sont-ils répliqués sur les 4 cartes de caractéristiques en entrée?


1
Je suis coincé au même endroit. Malheureusement, le document de Yann Lecun n’explique pas cela aussi. J'ai visionné plusieurs fichiers PDF et vidéos de ces derniers jours et tout le monde semble passer à côté de cette partie. L'article de Yann Lecun parle en réalité de 6 à 16 cartes de caractéristiques avec un tableau de mappage dans la couche 2. La carte de caractéristiques en sortie est saisie à partir de 0,1,2 cartes de caractéristiques en entrée. Mais la carte de caractéristiques de sortie est de 10 sur 10, les 3 cartes de caractéristiques de 14 à 14. Alors, comment cela a-t-il fonctionné? Avez-vous compris ce qui se passe? Est-ce un noyau 3D? ou fait-il la moyenne des sorties de l'emplacement * kernel (convolution)?
Run2

Réponses:


18

Les noyaux sont tridimensionnels, la largeur et la hauteur pouvant être choisies, tandis que la profondeur est égale au nombre de cartes de la couche d'entrée - en général.

Elles ne sont certainement pas bidimensionnelles et ne sont pas répliquées sur les cartes d'entités en entrée au même endroit en 2D! Cela signifierait qu'un noyau ne serait pas capable de faire la distinction entre ses entités en entrée à un emplacement donné, car il utiliserait le même poids sur les cartes d'entités en entrée!


5

Il n'y a pas nécessairement de correspondance individuelle entre les couches et les noyaux. Cela dépend de l'architecture particulière. Le chiffre que vous avez posté suggère que dans les couches S2, vous avez 6 cartes de caractéristiques, chacune combinant toutes les cartes de caractéristiques des couches précédentes, c.-à-d. Différentes combinaisons possibles des caractéristiques.

Sans plus de références, je ne peux pas en dire plus. Voir par exemple ce papier


Je regarde en particulier LeNet-5, et je me base sur ce deeplearning.net/tutorial/lenet.html . Il semble à partir de cette page, que les noyaux sont en 3 dimensions, mais ce n'est pas clair à 100% pour moi.
Utdiscant

2
Vous devez alors lire cet article ( yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf ). À la page 8, il est décrit comment les différentes couches sont connectées. Comme je l'ai dit, chaque couche à la couche combine plusieurs caractéristiques de la couche précédente au même endroit.
Jpmuc

2
Le lien est mort.
juil


0

Cet article peut être utile: Comprendre la convolution dans l'apprentissage en profondeur par Tim Dettmers du 26 mars

Il ne répond pas vraiment à la question car il explique uniquement la première couche de convolution, mais contient une bonne explication de l'intuition de base sur la convolution dans les CNN. Il décrit également une définition mathématique plus profonde de la convolution. Je pense que c'est lié au sujet de la question.


1
Bienvenue sur le site. Nous essayons de créer un référentiel permanent d'informations statistiques de haute qualité sous forme de questions et réponses. Ainsi, nous nous méfions des réponses de lien seulement, en raison de linkrot. Pouvez-vous poster une citation complète et un résumé des informations sur le lien, au cas où il disparaîtrait?
gung - Réintégrer Monica

@gung, merci pour la notification, désolé de mal comprendre les concepts. La situation est la suivante: cet article ne répond pas vraiment à la question, mais lorsque je cherchais une intuition de base sur CNN, j’ai trouvé cette question et j’espérais aider avec cet article à quelqu'un qui cherche aussi une intuition de base et a obtenu cette question. Ok, mieux vaut le supprimer, oui? Merci.
Anatoly Vasilyev

Je pense qu'il serait bon de dire: "Cet article peut servir de matière à réflexion, mais ne répond pas complètement à la question", ou quelque chose du genre. Il pourrait bien y avoir de la valeur ici. Il suffit de donner une citation complète et un résumé des informations contenues, au cas où le lien disparaîtrait.
Gay - Rétablir Monica

Merci pour l'information supplémentaire. Pouvez-vous fournir une citation complète de l'article (auteur, année, titre, revue, etc.) et un résumé de son contenu?
gung - Rétablir Monica

@gung oui, bien sûr. Mais il semble que cet article ne figure que dans ce blog, je ne pouvais donc trouver aucune autre information utile à ce sujet. Merci d'avoir clarifié mon point de vue
Anatoly Vasilyev Le
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.