Je pense qu'il y a deux ou trois choses qui vous prêtent à confusion, donc tout d'abord.
x [ n ]h [ n ]x [ n ]h [ n ]y[ n ] = ( x ⋆ h ) [ n ]
y[ n ] = ∑m = - ∞∞x [ m ] h [ n - m ]
Ce qui précède est valable pour les signaux unidimensionnels, mais il en va de même pour les images, qui ne sont que des signaux bidimensionnels. Dans ce cas, l'équation devient:
jen e w[ r , c ] = ∑u = - ∞∞∑v = - ∞∞jeo l d[ u , v ] k [ r - u , c - v ]
Sur le plan graphique, voici ce qui se passe:
Quoi qu'il en soit, la chose à garder à l'esprit est que le noyau , en fait, a été appris lors de la formation d'un réseau neuronal profond (DNN). Un noyau va juste être ce avec quoi vous convoluez votre entrée. Le DNN apprendra le noyau, de sorte qu'il fait ressortir certaines facettes de l'image (ou image précédente), qui seront bonnes pour réduire la perte de votre objectif cible.
C'est le premier point crucial à comprendre: Traditionnellement, les gens ont conçu des noyaux, mais dans le Deep Learning, nous laissons le réseau décider du meilleur noyau. La seule chose que nous précisons cependant, ce sont les dimensions du noyau. (Ceci est appelé un hyperparamètre, par exemple, 5x5 ou 3x3, etc.).