Tout d'abord, certains algorithmes convergent même avec des pondérations initiales nulles. Un exemple simple est un réseau linéaire de Perceptron. Bien sûr, de nombreux réseaux d'apprentissage nécessitent une pondération initiale aléatoire (bien que ce ne soit pas une garantie d'obtenir la réponse la plus rapide et la meilleure ).
Les réseaux de neurones utilisent la rétro-propagation pour apprendre et mettre à jour les pondérations, et le problème est que dans cette méthode, les pondérations convergent vers l'optimum local (coût / perte minimum local), et non vers l'optimum global.
La pondération aléatoire aide le réseau à prendre des risques pour chaque direction dans l'espace disponible et à les améliorer progressivement pour arriver à une meilleure réponse et ne pas se limiter à une seule direction ou réponse.
[L'image ci-dessous montre un exemple unidimensionnel de la façon dont la convergence. Compte tenu de l'emplacement initial, une optimisation locale est réalisée mais pas une optimisation globale. À des dimensions plus élevées, la pondération aléatoire peut augmenter les chances d'être au bon endroit ou de mieux commencer, ce qui se traduit par une convergence des poids vers de meilleures valeurs.] [1]
[1]: https://i.stack.imgur.com/2dioT.png [Kalhor, A. (2020). Classification et régression NNs. Conférence.]
Dans le cas le plus simple, le nouveau poids est le suivant:
W_new = W_old + D_loss
Ici, le gradient de la fonction de coût est ajouté au poids précédent pour obtenir un nouveau poids. Si tous les poids précédents sont identiques, à l'étape suivante, tous les poids peuvent être égaux. En conséquence, dans ce cas, d'un point de vue géométrique, le réseau de neurones est incliné dans une direction et tous les poids sont les mêmes. Mais si les poids sont différents, il est possible de mettre à jour les poids de différentes quantités. (selon le facteur d'impact que chaque poids a sur le résultat, il affecte le coût et les mises à jour des poids. Ainsi, même une petite erreur dans la pondération aléatoire initiale peut être résolue).
C'était un exemple très simple, mais il montre l'effet de l'initialisation de la pondération aléatoire sur l'apprentissage. Cela permet au réseau de neurones d'aller dans différents espaces au lieu d'aller d'un côté. En conséquence, dans le processus d'apprentissage, allez au meilleur de ces espaces