[Cette question a également été posée au débordement de la pile]
La question en bref
J'étudie les réseaux de neurones convolutifs, et je crois que ces réseaux ne traitent pas chaque neurone d'entrée (pixel / paramètre) de manière équivalente. Imaginez que nous ayons un réseau profond (plusieurs couches) qui applique une convolution sur une image d'entrée. Les neurones au "milieu" de l'image ont de nombreuses voies uniques vers de nombreux neurones de couche plus profonde, ce qui signifie qu'une petite variation dans les neurones du milieu a un fort effet sur la sortie. Cependant, les neurones au niveau du bord de l'image ont seulement voie (ou, en fonction de la mise en œuvre exacte, de l'ordre de 1 ) voies dans lesquelles leur flux d' information à travers le graphe. Il semble que ceux-ci soient "sous-représentés".
Cela m'inquiète, car cette discrimination des neurones de périphérie évolue de façon exponentielle avec la profondeur (nombre de couches) du réseau. Même l'ajout d'une couche de regroupement maximal n'arrêtera pas l'augmentation exponentielle, seule une connexion complète met tous les neurones sur un pied d'égalité. Je ne suis pas convaincu que mon raisonnement soit correct, cependant, mes questions sont les suivantes:
- Ai-je raison de dire que cet effet se produit dans les réseaux convolutionnels profonds?
- Y a-t-il une théorie à ce sujet, a-t-elle déjà été mentionnée dans la littérature?
- Existe-t-il des moyens de surmonter cet effet?
Parce que je ne suis pas sûr que cela donne suffisamment d'informations, je vais développer un peu plus sur l'énoncé du problème, et pourquoi je crois que c'est une préoccupation.
Explication plus détaillée
https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_problem_stackxchange.png?dl=0
Pourquoi c'est un problème?
Cet effet ne semble pas être un problème à première vue: en principe, les poids devraient s'ajuster automatiquement de manière à ce que le réseau fasse son travail. De plus, les bords d'une image ne sont de toute façon pas si importants dans la reconnaissance d'image. Cet effet n'est peut-être pas perceptible dans les tests de reconnaissance d'image quotidiens, mais il m'inquiète toujours pour deux raisons: 1. généralisation à d'autres applications, et 2. problèmes survenant dans le cas de réseaux très profonds.
1. Il pourrait y avoir d'autres applications, comme la reconnaissance vocale ou sonore, où il n'est pas vrai que les neurones les plus centraux soient les plus importants. L'application de la convolution se fait souvent dans ce domaine, mais je n'ai pu trouver aucun article mentionnant l'effet qui me préoccupe.
Imaginez maintenant que nous perturbons tous les neurones d'une petite quantité. Les neurones centraux entraîneront un changement plus important de la sortie de plusieurs ordres de grandeur, par rapport aux neurones périphériques. Je pense que pour les applications générales et pour les réseaux très profonds, il faudrait trouver des solutions à mon problème?