Lors de la formation d'un réseau neuronal à l'aide de l'algorithme de rétropropagation, la méthode de descente en gradient est utilisée pour déterminer les mises à jour du poids. Ma question est la suivante: Plutôt que d'utiliser la méthode de descente en gradient pour localiser lentement le point minimum par rapport à un certain poids, pourquoi ne pas simplement définir la dérivée , et trouver la valeur du poids qui minimise l'erreur?
Aussi, pourquoi sommes-nous sûrs que la fonction d'erreur dans la rétropropagation sera au minimum? Ne peut-il pas s'avérer que la fonction d'erreur est un maximum à la place? Existe-t-il une propriété spécifique des fonctions d'écrasement qui garantit qu'un réseau avec un nombre quelconque de nœuds cachés avec des poids arbitraires et des vecteurs d'entrée donnera toujours une fonction d'erreur qui a des minima?