Le biais fonctionne par neurone virtuel, il n'y a donc aucune valeur à avoir plusieurs entrées de polarisation où il y a une seule sortie - ce qui équivaudrait à simplement additionner les différents poids de biais en un seul biais.
Dans les cartes d'entités qui sont la sortie de la première couche masquée, les couleurs ne sont plus séparées *. En effet, chaque carte d'entités est un "canal" dans la couche suivante, bien qu'elles soient généralement visualisées séparément où l'entrée est visualisée avec des canaux combinés. Une autre façon de penser à cela est que les canaux RVB séparés dans l'image originale sont 3 "cartes de caractéristiques" en entrée.
Peu importe le nombre de canaux ou d'entités dans une couche précédente, la sortie vers chaque carte d'entités dans la couche suivante est une valeur unique dans cette carte. Une valeur de sortie correspond à un seul neurone virtuel, nécessitant un poids de polarisation.
Dans un CNN, comme vous l'expliquez dans la question, les mêmes poids (y compris le poids de biais) sont partagés à chaque point de la carte des entités en sortie. Ainsi, chaque carte d'entités a son propre poids de biais ainsi que previous_layer_num_features x kernel_width x kernel_height
des poids de connexion.
Donc, oui, votre exemple résultant en un (3 x (5x5) + 1) x 32
poids total pour la première couche est correct pour un CNN avec la première couche cachée traitant l'entrée RVB dans 32 cartes d'entités distinctes.
* Vous pouvez être confus en voyant la visualisation des poids CNN qui peuvent être séparés en canaux de couleur sur lesquels ils opèrent.