(Modifier les notes: j'ai réorganisé cela après avoir paniqué à sa longueur.)
La littérature sur la descente coordonnée peut être un peu difficile à retrouver. Voici quelques raisons à cela.
De nombreuses propriétés connues des méthodes de coordonnées sont capturées dans des théorèmes généraux pour des méthodes de descente plus générales. Deux exemples de cela, donnés ci-dessous, sont la convergence rapide sous forte convexité (maintenue pour toute descente plus raide), et la convergence générale de ces méthodes (généralement attribuée à Zoutendijk).lp
La dénomination n'est pas standard. Même le terme "descente la plus raide" n'est pas standard. Vous pouvez réussir à googler l'un des termes "descente de coordonnées cycliques", "descente de coordonnées", "Gauss-Seidel", "Gauss-Southwell". l'utilisation n'est pas cohérente.
La variante cyclique reçoit rarement une mention spéciale. Au lieu de cela, généralement, seul le meilleur choix unique de coordonnées est discuté. Mais cela donne presque toujours la garantie cyclique, mais avec un facteur supplémentaire (nombre de variables): c'est parce que la plupart des analyses de convergence procèdent en limitant l'amélioration d'une étape, et vous pouvez ignorer les coordonnées supplémentaires. Il semble également difficile de dire quoi que ce soit de général sur ce que le cyclique vous achète, donc les gens font juste la meilleure coordonnée et le facteur n peut généralement être vérifié.nn
Taux sous forte convexité. Le cas le plus simple est que votre fonction objectif est fortement convexe. Ici, toutes les variantes de descente de gradient ont le taux . Cela est prouvé dans le livre de Boyd & Vandenberghe. La preuve donne d'abord le résultat de la descente de gradient, puis utilise l'équivalence de norme pour donner le résultat de la descente générale l p la plus raide.O (ln( 1 / ϵ ) )lp
Contraintes. Sans forte convexité, vous devez commencer à être un peu prudent. Vous n'avez rien dit sur les contraintes, et donc en général, l'infimum peut ne pas être atteignable. Je dirai brièvement au sujet des contraintes que l'approche standard (avec les méthodes de descente) consiste à projeter sur votre ensemble de contraintes à chaque itération pour maintenir la faisabilité, ou à utiliser des barrières pour intégrer les contraintes dans votre fonction objectif. Dans le cas du premier, je ne sais pas comment ça joue avec la descente coordonnée; dans ce dernier cas, cela fonctionne très bien avec une descente coordonnée, et ces barrières peuvent être fortement convexes.
Plus spécifiquement pour les méthodes de coordonnées, plutôt que de projeter, beaucoup de gens font simplement que la mise à jour des coordonnées reste faisable: c'est par exemple exactement le cas avec l'algorithme de Frank-Wolfe et ses variantes (c'est-à-dire en l'utilisant pour résoudre les SDP).
Je noterai également brièvement que l'algorithme SMO pour les SVM peut être considéré comme une méthode de descente de coordonnées, où vous mettez à jour deux variables à la fois et conservez une contrainte de faisabilité pendant que vous le faites. Le choix des variables est heuristique dans cette méthode, et donc les garanties ne sont vraiment que les garanties cycliques. Je ne sais pas si cette connexion apparaît dans la littérature standard; J'ai appris la méthode SMO grâce aux notes de cours d'Andrew Ng et je les ai trouvées assez propres.
Garantie de convergence générale.n
O (ln( 1 / ϵ ) )
Il y a des résultats plus récents sur la descente de coordonnées, j'ai vu des trucs sur arXiv. De plus, luo & tseng ont des papiers plus récents. mais c'est l'essentiel.
∑mi = 1g( ⟨ Unje, X ⟩ )g( aje)m1λexp( 1 / ϵ2)O (1 / ϵ)
Le problème avec les mises à jour exactes. En outre, il arrive très souvent que vous n'ayez pas de mise à jour de coordonnées uniques de forme fermée. Ou la solution exacte peut tout simplement ne pas exister. Mais heureusement, il existe de très nombreuses méthodes de recherche de ligne qui obtiennent essentiellement les mêmes garanties qu'une solution exacte. Ce matériel peut être trouvé dans des textes de programmation non linéaire standard, par exemple dans les livres de Bertsekas ou Nocedal & Wright mentionnés ci-dessus.
Vis à vis de votre deuxième paragraphe: quand ceux-ci fonctionnent bien.
Tout d'abord, bon nombre des analyses mentionnées ci-dessus pour le travail de gradient pour la descente de coordonnées. Alors pourquoi ne pas toujours utiliser la descente coordonnée? La réponse est que pour de nombreux problèmes où la descente de gradient est applicable, vous pouvez également utiliser des méthodes de Newton, pour lesquelles une convergence supérieure peut être prouvée. Je ne connais aucun moyen d'obtenir l'avantage de Newton avec une descente coordonnée. De plus, le coût élevé des méthodes Newton peut être atténué avec les mises à jour de Quasinewton (voir par exemple LBFGS).
l0kkkk . Il y a un grand article sur ce sujet, par Shalev-Shwartz, Srebro et Zhang, intitulé "trading precision for sparsity in optimization problems with sparsity contraintes". Plus précisément au deuxième paragraphe de votre question, cet article donne de plus amplesF