J'essaie de comprendre l'optimisation de la descente de gradient dans les algorithmes ML (machine learning). Je comprends qu'il ya une fonction où le coût l'objectif est de minimiser l'erreur y - y . Dans un scénario où les poids w 1 , w 2 sont optimisés pour donner l'erreur minimale et des dérivées partielles sont utilisées, cela change-t-il à la fois w 1 et w 2 à chaque étape ou s'agit-il d'une combinaison (par exemple, en quelques itérations seulement w 1 est modifié et lorsque w 1 ne réduit plus l'erreur, la dérivée commence par w 2)? L'application pourrait être un modèle de régression linéaire, un modèle de régression logistique ou des algorithmes de stimulation.
w1, la diminution enw2fonction de la direction de la dérivée partielle pour atteindre les minima locaux et juste pour confirmer que l'algorithme ne donnera pas nécessairement toujours les minima globaux?