La dimension de sortie d'une convolution en apprentissage profond dépend de plusieurs facteurs
- la taille du filtre (alias noyau)
- le rembourrage (que vous ajoutiez ou non des zéros autour de votre image et combien)
- le nombre de filtres que vous utilisez
- la foulée
La dépendance la plus simple est celle du nombre de filtres N
. Il vous donne le nombre de cartes d'entités que votre sortie possède. Pour l'entrée qui peut être les canaux RVB c'est-à-dire 3, pour la sortie ce nombre peut être choisi librement.
Le facteur suivant est le remplissage nul. Si vous utilisez une taille de filtre de (3,3) et un remplissage "valide", c'est-à-dire en ajoutant AUCUN zéros autour de l'image, vous vous retrouvez avec une sortie de dimension.
(100, 100, 3) -> (98, 98, N)
Parce que vous utilisez une foulée de 1. Si vous déplacez le filtre sur l'image à la fin de l'image dans chaque direction, le filtre atteindra la bordure après 98 étapes.
Cependant, si vous utilisez le remplissage "MÊME", vous compensez la taille du filtre - dans le cas d'une taille de filtre de (3,3) qui correspondrait à une ligne de zéros autour de l'image - vous vous retrouverez avec:
(100, 100, 3) -> (100, 100, N)
Avec une foulée de 2 par exemple, vous décalez la position du filtre de deux pixels. Par conséquent, vous obtenez
(100, 100, 3) -> (50, 50, N)