La descente par gradient et la méthode du gradient conjugué sont deux algorithmes pour minimiser les fonctions non linéaires, c'est-à-dire des fonctions comme la fonction de Rosenbrock
F( x1, x2) = ( 1 - x1)2+ 100 ( x2- x21)2
ou une fonction quadratique multivariée (dans ce cas avec un terme quadratique symétrique)
F( x ) = 12XTUNETA x - bTUn x .
Les deux algorithmes sont également itératifs et basés sur la direction de la recherche. Pour le reste de ce post, et seront des vecteurs de longueur ; et sont des scalaires, et les exposants indiquent l'indice d'itération. La descente de gradient et la méthode du gradient conjugué peuvent être utilisées pour trouver la valeur qui résoutd n f ( x ) α x ∗XrénF( x )αX∗
min f( x )
Les deux méthodes partent d'une supposition initiale, , puis calculent l'itération suivante à l'aide d'une fonction du formulaireX0
Xi + 1= xje+ αjeréje.
En d'autres termes, la valeur suivante de est trouvée en commençant à l'emplacement actuel et en se déplaçant dans la direction de recherche sur une certaine distance . Dans les deux méthodes, la distance à parcourir peut être trouvée par une recherche de ligne (minimisez sur ). D'autres critères peuvent également être appliqués. Là où les deux méthodes diffèrent, c'est dans leur choix de . Pour la méthode du gradient, . Pour la méthode du gradient conjugué, la procédure de Grahm-Schmidt est utilisée pour orthogonaliser les vecteurs de gradient. En particulier, , mais alors est égalx i d i α i f ( x i + α i d i ) α i d i d i = - ∇ f ( x i ) d 0 = - ∇ f ( x 0 ) d 1 - ∇ f ( x 1 )XXjeréjeαjeF( xje+ αjeréje)αjeréjeréje= - ∇ f( xje)ré0= - ∇ f( x0)ré1- ∇ f( x1) moins la projection de ce vecteur sur telle que . Chaque vecteur de gradient suivant est orthogonalisé par rapport à tous les précédents, ce qui conduit à de très belles propriétés pour la fonction quadratique ci-dessus.ré0( d1)Tré0= 0
La fonction quadratique ci-dessus (et les formulations associées) est également à l'origine de la discussion de la résolution de utilisant la méthode du gradient conjugué, car le minimum de cette est atteint au point où .A x = bF( x )XA x = b