J'essaie de comprendre l'optimisation de la descente de gradient dans les algorithmes ML (machine learning). Je comprends qu'il ya une fonction où le coût l'objectif est de minimiser l'erreur y - y . Dans un scénario où les poids w 1 , w 2 sont optimisés pour donner l'erreur minimale et des dérivées partielles sont utilisées, cela change-t-il à la fois w 1 et w 2 à chaque étape ou s'agit-il d'une combinaison (par exemple, en quelques itérations seulement w 1 est modifié et lorsque w 1 ne réduit plus l'erreur, la dérivée commence par w 2)? L'application pourrait être un modèle de régression linéaire, un modèle de régression logistique ou des algorithmes de stimulation.
w1
, la diminution enw2
fonction de la direction de la dérivée partielle pour atteindre les minima locaux et juste pour confirmer que l'algorithme ne donnera pas nécessairement toujours les minima globaux?