Il existe quelques variantes sur la façon de normaliser les images, mais la plupart semblent utiliser ces deux méthodes:
- Soustrayez la moyenne par canal calculée pour toutes les images (par exemple, VGG_ILSVRC_16_layers )
- Soustrayez par pixel / canal calculé sur toutes les images (par exemple, CNN_S , voir aussi le réseau de référence de Caffe )
L’approche naturelle consisterait à normaliser chaque image. Une image prise en plein jour provoquera le déclenchement de plus de neurones qu'une image de nuit et, bien qu'elle puisse nous informer de l'heure à laquelle nous nous soucions généralement des caractéristiques plus intéressantes présentes sur les bords, etc.
Pierre Sermanet fait référence dans 3.3.3 à cette normalisation de contraste locale qui serait basée sur une image, mais je ne l’ai pas trouvé dans les exemples / tutoriels que j’ai vus. J'ai également vu une question intéressante sur Quora et le message de Xiu-Shen Wei, mais ils ne semblent pas soutenir les deux approches ci-dessus.
Qu'est-ce qui me manque exactement? S'agit-il d'un problème de normalisation des couleurs ou existe-t-il un document qui explique réellement pourquoi tant de gens utilisent cette approche?