Je pense que la réponse dépend du scénario.
Considérez NN (réseau neuronal) comme un opérateur F, de sorte que F (entrée) = sortie . Dans le cas où cette relation est linéaire de sorte que F (A * entrée) = A * sortie , alors vous pouvez choisir soit de laisser l'entrée / sortie non normalisée dans leurs formes brutes, soit de normaliser les deux pour éliminer A. Évidemment, cette hypothèse de linéarité est violé dans les tâches de classification, ou presque n'importe quelle tâche qui génère une probabilité, où F (A * entrée) = 1 * sortie
En pratique, la normalisation permet aux réseaux non adaptables d'être adaptables, ce qui est crucial pour les expérimentateurs / programmeurs. Néanmoins, l'impact précis de la normalisation dépendra non seulement de l'architecture / de l'algorithme du réseau, mais également du préalable statistique pour l'entrée et la sortie.
De plus, NN est souvent implémenté pour résoudre des problèmes très difficiles à la manière d'une boîte noire, ce qui signifie que le problème sous-jacent peut avoir une formulation statistique très médiocre, ce qui rend difficile l'évaluation de l'impact de la normalisation, provoquant l'avantage technique (devenir adaptable) dominer son impact sur les statistiques.
Au sens statistique, la normalisation supprime la variation considérée comme non causale dans la prédiction de la sortie, afin d'empêcher NN d'apprendre cette variation comme un prédicteur ( NN ne voit pas cette variation et ne peut donc pas l'utiliser ).