Programmation linéaire avec contraintes matricielles

Aperçu

Vous voudrez peut-être essayer une variante de la méthode des multiplicateurs de directions alternées (ADMM), qui s'est avérée converger étonnamment rapidement pour les problèmes de type lasso. La stratégie consiste à formuler le problème avec un lagrangien augmenté puis à faire une ascension en gradient sur le problème dual. C'est particulièrement agréable pour ce problème régularisé particulier car la partie non lisse de chaque itération de la méthode a une solution exacte que vous pouvez simplement évaluer élément par élément, tandis que la partie lisse implique la résolution d'un système linéaire. $l_1$ $l^1$

Dans ce post, nous

dériver une formulation ADMM globale pour une généralisation de votre problème,
dériver les sous-problèmes pour chaque itération ADMM et les spécialiser dans votre situation, puis
rechercher la résultante système linéaire qui doit être résolu chaque itération, et à développer un solveur rapide (ou préconditionneur) sur la base de précalculer les valeurs propres décompositions (ou des approximations de rang bas de ceux - ci) pour et . $M^TM$ $YY^T$
résumer avec quelques remarques finales

La plupart des grandes idées ici sont couvertes dans le superbe article de synthèse suivant,

Boyd, Stephen et al. "Optimisation distribuée et apprentissage statistique via la méthode des multiplicateurs de direction alternée." Foundations and Trends® in Machine Learning 3.1 (2011): 1-122. http://www.stanford.edu/~boyd/papers/pdf/admm_distr_stats.pdf

Avant d'entrer dans les détails, je tiens à noter qu'il s'agit d'une réponse de méthode / algorithme et non d'une réponse de code existante pratique - si vous souhaitez utiliser cette méthode, vous devez lancer votre propre implémentation.

Formulation ADMM

En général, supposons que vous vouliez résoudre

\begin{aligned} min_{x} & \sum_{i} | x_{i} | \\ s.t. & A x = b \end{aligned} .

$\begin{array}{rl} \min_{x} & \sum_{i} |x_i|\\ \textrm{s.t.} & Ax = b \end{array}.$

Le problème dans le message d'origine tombe dans cette catégorie après une vectorisation appropriée. (ce n'est qu'en principe - on verra que la vectorisation n'a pas besoin d'être réalisée en pratique)

Vous pouvez à la place résoudre le problème équivalent, qui a lagrangien

\begin{aligned} min_{x, z} & \sum_{i} | x_{i} | + \frac{α}{2} | | x - z | |^{2} + \frac{β}{2} | | A z - b | |^{2} \\ s.t. & A z = b \\ & & x = z, \end{aligned}

$\begin{array}{rl} \min_{x,z} & \sum_{i} |x_i| + \frac{\alpha}{2}||x-z||^2 + \frac{\beta}{2}||Az-b||^2 \\ \textrm{s.t.} & Az = b \\ \textrm{&} & x = z, \end{array}$

\begin{aligned} L (x, z, λ, γ) = & \sum_{i} | x_{i} | + \frac{α}{2} | | x - z | |^{2} + \frac{β}{2} | | A z - b | |^{2} + λ^{T} (A z - b) + γ^{T} (x - z) \\ = & \sum_{i} | x_{i} | + \frac{α}{2} | | x - z + \frac{1}{α} γ | |^{2} + \frac{β}{2} | | A z - b + \frac{1}{β} λ | |^{2} \\ + \frac{α}{2} | | \frac{1}{α} γ | |^{2} + \frac{β}{2} | | \frac{1}{β} λ | |^{2} . \end{aligned}

$\begin{align} L(x,z,\lambda,\gamma) =& \sum_{i} |x_i| + \frac{\alpha}{2}||x-z||^2 + \frac{\beta}{2}||Az-b||^2 + \lambda^T(Az-b) + \gamma^T(x-z) \\ =& \sum_{i} |x_i| + \frac{\alpha}{2}||x-z + \frac{1}{\alpha}\gamma||^2 + \frac{\beta}{2}||Az-b + \frac{1}{\beta}\lambda||^2 \\ &+ \frac{\alpha}{2}||\frac{1}{\alpha}\gamma||^2 + \frac{\beta}{2}||\frac{1}{\beta}\lambda||^2. \end{align}$

La méthode de direction alternée des multiplicateurs résout le problème double, par ascension en gradient sur les variables doubles, sauf avec projections alternées inexactes sur les sous-problèmes doubles. C'est-à-dire que l'on fait l'itération

max_{λ, γ} min_{x, z} L (x, z, λ, γ),

$\max_{\lambda,\gamma} \min_{x,z} L(x,z,\lambda,\gamma),$

\begin{aligned} x^{k + 1} & = {a r g m i n}_{x} L (x, z^{k}, λ^{k}, γ^{k}) \\ z^{k + 1} & = {a r g m i n}_{z} L (x^{k + 1}, z, λ^{k}, γ^{k}) \\ γ^{k + 1} & = γ^{k} + α (x^{k + 1} - z^{k + 1}) \\ λ^{k + 1} & = λ^{k} + β (A z^{k + 1} - b) . \end{aligned}

$\begin{align} x^{k+1} &= \mathrm{argmin}_x L(x,z^k,\lambda^k,\gamma^k) \\ z^{k+1} &= \mathrm{argmin}_z L(x^{k+1},z,\lambda^k,\gamma^k) \\ \gamma^{k+1} &= \gamma^k + \alpha(x^{k+1}-z^{k+1}) \\ \lambda^{k+1} &= \lambda^k + \beta(Az^{k+1}-b). \end{align}$

Dans certaines conditions douces sur les paramètres et (expliqués dans l'article Boyd & Parikh lié ci-dessus), la méthode ADMM convergera vers la vraie solution. Le taux de convergence est linéaire, car il s'agit au cœur d'une méthode de montée en gradient. Souvent, il peut être accéléré pour être super-linéaire en 1) modifiant les paramètres et fur et à mesure en fonction de l'heuristique, ou 2) en utilisant l'accélération de Nesterov. Pour des notes sur la modification des paramètres de pénalité, voir le document d'enquête Boyd, et pour utiliser l'accélération Nesterov avec ADMM, voir le document suivant, $\alpha$ $\beta$ $\alpha$ $\beta$

Goldstein, Tom, Brendan O'Donoghue et Simon Setzer. "Méthodes d'optimisation rapide de la direction alternative." Rapport CAM (2012): 12-35. ftp://ftp.math.ucla.edu/pub/camreport/cam12-35.pdf

Cependant, même si le taux de convergence global n'est que linéaire, pour les problèmes , la méthode a été observée pour trouver le motif de rareté très rapidement, puis converger plus lentement sur les valeurs exactes. Étant donné que trouver le motif de rareté est la partie la plus difficile, c'est très fortuit! Les raisons exactes pourquoi semblent être un domaine de recherche actuel. Tout le monde voit le modèle de rareté converger rapidement, mais personne ne semble savoir exactement pourquoi cela se produit. Il y a quelque temps, j'ai interrogé Boyd et Parikh à ce sujet par courrier électronique et Parikh a pensé que cela pourrait être expliqué en interprétant la méthode dans un contexte de systèmes de contrôle. Une autre explication heuristique du phénomène se trouve en annexe de l'article suivant, $l^1$

Goldstein, Tom et Stanley Osher. "La méthode split Bregman pour les problèmes régularisés en L1." SIAM Journal on Imaging Sciences 2.2 (2009): 323-343. ftp://ftp.math.ucla.edu/pub/camreport/cam08-29.pdf

Bien sûr, la difficulté réside maintenant dans la résolution des sous-problèmes de mise à jour et pour votre situation spécifique. Comme le lagrangien est quadratique en , le sous-problème de mise à jour nécessite simplement de résoudre un système linéaire. Le sous-problème semble plus difficile car il est non différenciable, mais il s'avère qu'il existe une formule exacte pour la solution qui peut être appliquée élément par élément! Nous discutons maintenant de ces sous-problèmes plus en détail et les spécifions au problème dans le message d'origine. $x$ $z$ $z$ $z$ $x$

Configuration du sous-problème de mise à jour (système linéaire) $z$

Pour la mise à jour , nous avons $z$

{a r g m i n}_{z} L (x_{k}, z, λ_{k}, γ_{k}) = {a r g m i n}_{z} \frac{α}{2} | | x - z + \frac{1}{α} γ | |^{2} + \frac{β}{2} | | A z - b + \frac{1}{β} λ | |^{2} .

$\mathrm{argmin}_z L(x_k,z,\lambda_k,\gamma_k) = \mathrm{argmin}_z \frac{\alpha}{2}||x-z + \frac{1}{\alpha}\gamma||^2 + \frac{\beta}{2}||Az-b + \frac{1}{\beta}\lambda||^2.$

Spécialisé dans votre problème, cela devient,

\begin{aligned} {a r g m i n}_{Z_{J}, Z_{B}} & \frac{α}{2} | | J^{k + 1} - Z_{J} + \frac{1}{α} Γ_{J} | |_{F r o}^{2} + \frac{α}{2} | | B^{k + 1} - Z_{B} + \frac{1}{α} Γ_{B} | |_{F r o}^{2} \\ + \frac{β}{2} | | M Z_{J} + Z_{B} Y - X + \frac{1}{α} Λ | |_{F r o}^{2}, \end{aligned}

$\begin{align} \mathrm{argmin}_{Z_J,Z_B} &\frac{\alpha}{2}||J^{k+1}-Z_J + \frac{1}{\alpha}\Gamma_J||_{Fro}^2 + \frac{\alpha}{2}||B^{k+1}-Z_B + \frac{1}{\alpha}\Gamma_B||_{Fro}^2 \\ &+\frac{\beta}{2}||MZ_J + Z_BY - X + \frac{1}{\alpha}\Lambda||^2_{Fro}, \end{align}$

où désigne la norme Frobenius (élément élément ). Il s'agit d'un problème de minimisation quadratique, où les conditions d'optimalité du premier ordre peuvent être trouvées en prenant des dérivées partielles de l'objectif par rapport à et et en les mettant à zéro. C'est-à-dire, $||\cdot||Fro$ $l_2$ $Z_J$ $Z_B$

\begin{aligned} 0 & = - \frac{α}{2} (J^{k + 1} - Z_{J} + \frac{1}{α} Γ_{J}) + \frac{β}{2} M^{T} (M Z_{J} + Z_{B} Y - X + \frac{1}{β} Λ), \\ 0 & = - \frac{α}{2} (B^{k + 1} - Z_{B} + \frac{1}{α} Γ_{B}) + \frac{β}{2} (M Z_{J} + Z_{B} Y - X + \frac{1}{β} Λ) Y^{T} . \end{aligned}

$\begin{align} 0 &= -\frac{\alpha}{2}(J^{k+1} - Z_J + \frac{1}{\alpha}\Gamma_J) + \frac{\beta}{2}M^T(MZ_J + Z_BY - X + \frac{1}{\beta}\Lambda), \\ 0 &= -\frac{\alpha}{2}(B^{k+1} - Z_B + \frac{1}{\alpha}\Gamma_B) + \frac{\beta}{2}(MZ_J + Z_BY - X + \frac{1}{\beta}\Lambda)Y^T. \end{align}$

Comme indiqué dans les commentaires de l'affiche originale Justin Solomon, ce système pour est symétrique, donc le gradient conjugué est une méthode sans matrice idéale. Une section ultérieure traite de ce système et comment le résoudre / le préconditionner plus en détail. $Z_J,Z_B$

Résolution update sous - problème (solution de seuillage analytique) $x$

Passons maintenant au sous-problème , $x$

{a r g m i n}_{x} L (x, z^{k}, λ^{k}, γ^{k}) = {a r g m i n}_{x} \sum_{i} | x_{i} | + \frac{α}{2} | | x - z^{k} + \frac{1}{α} γ^{k} | |^{2}

$\mathrm{argmin}_x L(x,z^k,\lambda^k,\gamma^k) = \mathrm{argmin}_x \sum_{i} |x_i| + \frac{\alpha}{2}||x-z^k + \frac{1}{\alpha}\gamma^k||^2$

La première chose à voir est que la somme peut être décomposée élément par élément,

\sum_{i} | x_{i} | + \frac{α}{2} | | x - z^{k} + \frac{1}{α} γ^{k} | |^{2} = \sum_{i} | x_{i} | + \frac{α}{2} \sum_{i} (x_{i} - z_{i}^{k} + \frac{1}{α} γ_{i}^{k})^{2},

$\sum_{i} |x_i| + \frac{\alpha}{2}||x-z^k + \frac{1}{\alpha}\gamma^k||^2 = \sum_{i} |x_i| + \frac{\alpha}{2}\sum_i (x_i-z_i^k + \frac{1}{\alpha}\gamma_i^k)^2,$

Nous pouvons donc résoudre le problème d'optimisation élément par élément en parallèle, donnant

x_{i}^{k + 1} = {a r g m i n}_{x_{i}} | x_{i} | + \frac{α}{2} (x_{i} - z_{i}^{k} + \frac{1}{α} γ_{i}^{k})^{2} .

$x_i^{k+1} = \mathrm{argmin}_{x_i} |x_i| + \frac{\alpha}{2}(x_i-z_i^k + \frac{1}{\alpha}\gamma_i^k)^2.$

La forme générale de cette équation est,

min_{s} | s | + \frac{α}{2} (s - t)^{2} .

$\min_s |s| + \frac{\alpha}{2}(s-t)^2.$

La fonction de valeur absolue tente de tirer le point optimal vers , tandis que le terme quadratique tente de tirer le point optimal vers . la vraie solution se situe donc quelque part sur le segment entre les deux, avec une augmentation de tendant à tirer le point optimal vers , et une diminution de tirant le point optimal vers . $s=0$ $s=t$ $[0,t)$ $\alpha$ $t$ $\alpha$ $0$

C'est une fonction convexe mais elle n'est pas différenciable à zéro. La condition pour un point de minimisation est que la sous-dérivée de l'objectif à ce point contienne zéro. Le terme quadratique a une dérivée et la fonction de valeur absolue a une dérivée pour , une sous-dérivée à valeur définie comme intervalle lorsque et la dérivée pour . Ainsi, nous obtenons la sous-dérivée de la fonction objectif globale, $\alpha(s-t)$ $-1$ $s < 0$ $[-1,1]$ $s=0$ $1$ $s > 0$

\partial_{s} (| s | + \frac{α}{2} (s - t)^{2}) = {\begin{cases} 1 + α (s - t) & s > 0 \\ [- 1, 1] + α t, & s = 0, \\ - 1 + α (s - t), & s < 0. \end{cases}

$\partial_s \left(|s| + \frac{\alpha}{2}(s-t)^2\right) = \begin{cases} 1 + \alpha (s-t)\, & s > 0 \\ [-1,1] + \alpha t, & s = 0, \\ -1 + \alpha (s-t), & s < 0. \end{cases}$

De cela, nous voyons que la sous-dérivée de l'objectif à contient si et seulement si , auquel cas est le minimiseur. D'un autre côté, si n'est pas le minimiseur, alors nous pouvons définir la dérivée à valeur unique égale à zéro et résoudre pour le minimiseur. Ce faisant, $s=0$ $0$ $|t| \le \frac{1}{\alpha}$ $s=0$ $s=0$

{a r g m i n}_{s} | s | + \frac{α}{2} (s - t)^{2} = {\begin{cases} t - \frac{1}{α}, & t > \frac{1}{α}, \\ 0, & | t | \leq \frac{1}{α}, \\ t + \frac{1}{α}, & t < - \frac{1}{α} \end{cases}

$\mathrm{argmin}_s |s| + \frac{\alpha}{2}(s-t)^2 = \begin{cases} t - \frac{1}{\alpha}, & t > \frac{1}{\alpha}, \\ 0, & |t| \le \frac{1}{\alpha}, \\ t + \frac{1}{\alpha}, & t < -\frac{1}{\alpha} \end{cases}$

En spécialisant à nouveau ce résultat dans le problème réel que nous essayons de résoudre dans la question d'origine où donne, La mise à jour de est simplement $t = Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k$

J_{i j}^{k + 1} = {\begin{cases} Z_{i j}^{k} - \frac{1}{α} Γ_{i j}^{k} - \frac{1}{α}, & Z_{i j}^{k} - \frac{1}{α} Γ_{i j}^{k} > \frac{1}{α}, \\ 0, & | Z_{i j}^{k} - \frac{1}{α} Γ_{i j}^{k} | \leq \frac{1}{α}, \\ Z_{i j}^{k} - \frac{1}{α} Γ_{i j}^{k} + \frac{1}{α}, & Z_{i j}^{k} - \frac{1}{α} Γ_{i j}^{k} < - \frac{1}{α} . \end{cases}

$J_{ij}^{k+1} = \begin{cases} Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k - \frac{1}{\alpha}, & Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k > \frac{1}{\alpha}, \\ 0, & |Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k| \le \frac{1}{\alpha}, \\ Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k + \frac{1}{\alpha}, & Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k < -\frac{1}{\alpha}. \end{cases}$

B

$B$

B^{k + 1} = Z_{B} - \frac{1}{α} Γ_{B},

$B^{k+1} = Z_B - \frac{1}{\alpha}\Gamma_B,$

comme l'a noté l'affiche originale Justin Solomon dans les commentaires. Dans l'ensemble, faire la mise à jour pour nécessite simplement de parcourir les entrées de vos matrices et d'évaluer les formules ci-dessus pour chaque entrée. $J,B$

Complément de Schur pour le système $Z_J,Z_B$

L'étape la plus coûteuse de l'itération est la résolution du système,

\begin{aligned} 0 & = - \frac{α}{2} (J^{k + 1} - Z_{J} + \frac{1}{α} Γ_{J}) + \frac{β}{2} M^{T} (M Z_{J} + Z_{B} Y - X + \frac{1}{β} Λ), \\ 0 & = - \frac{α}{2} (B^{k + 1} - Z_{B} + \frac{1}{α} Γ_{B}) + \frac{β}{2} (M Z_{J} + Z_{B} Y - X + \frac{1}{β} Λ) Y^{T} . \end{aligned}

À cette fin, il vaut la peine de construire un bon solveur / préconditionneur pour ce système. Dans cette section, nous le faisons en vectorisant , en formant un complément de Schur , en faisant quelques manipulations de produits Krnoecker puis en ne vectorisant pas. Le système de complément Schur résultant est une équation de Sylvester légèrement modifiée .

Dans ce qui suit, les identités suivantes concernant la vectorisation et les produits Kronecker sont absolument essentielles:

$\mathrm{vec}(ABC) = (C^T \otimes A)\mathrm{vec}(B),$
$(A \otimes B)(C \otimes D) = AC \otimes BD$ ,
$(A \otimes B)^{-1} = A^{-1} \otimes B^{-1}$ , et
$(A \otimes B)^T = A^T \otimes B^T$ .

Ces identités sont valables chaque fois que les tailles de matrice et l'invertibilité sont telles que chaque côté de l'équation est une expression valide.

La forme vectorisée du système est,

(α I + β [\begin{matrix} I \otimes M^{T} M & (Y \otimes M)^{T} \\ Y \otimes M & Y Y^{T} \otimes I \end{matrix}]) [\begin{matrix} v e c (Z_{J}) \\ v e c (Z_{B}) \end{matrix}] = [\begin{matrix} v e c (α J + β M^{T} X + Γ_{J} - M^{T} Λ) \\ v e c (α B + β X Y^{T} + Γ_{B} - Λ Y^{T}) \end{matrix}],

$\left(\alpha I +\beta\begin{bmatrix}I \otimes M^TM & (Y \otimes M)^T \\ Y \otimes M & YY^T \otimes I\end{bmatrix}\right)\begin{bmatrix}\mathrm{vec}(Z_J) \\ \mathrm{vec}(Z_B)\end{bmatrix} = \begin{bmatrix}\mathrm{vec}(\alpha J + \beta M^TX + \Gamma_J - M^T\Lambda) \\ \mathrm{vec}(\alpha B + \beta XY^T + \Gamma_B - \Lambda Y^T)\end{bmatrix},$

ou,

[\begin{matrix} I \otimes (α I + β M^{T} M) & β (Y \otimes M)^{T} \\ β Y \otimes M & (α I + β Y Y^{T}) \otimes I \end{matrix}] [\begin{matrix} v e c (Z_{J}) \\ v e c (Z_{B}) \end{matrix}] = [\begin{matrix} v e c (F) \\ v e c (G) \end{matrix}],

$\begin{bmatrix}I \otimes (\alpha I + \beta M^TM) & \beta (Y \otimes M)^T \\ \beta Y \otimes M & (\alpha I + \beta YY^T) \otimes I\end{bmatrix} \begin{bmatrix}\mathrm{vec}(Z_J) \\ \mathrm{vec}(Z_B)\end{bmatrix} = \begin{bmatrix}\mathrm{vec}(F) \\ \mathrm{vec}(G)\end{bmatrix},$

où et sont des notations condensées pour le côté droit. Nous effectuons maintenant le complément élimination bloc-gaussien / Schur pour éliminer le bloc inférieur gauche de la matrice, dans le processus de condensation des produits Kronecker. C'est, $F$ $G$

[\begin{matrix} I \otimes (α I + β M^{T} M) & β (Y \otimes M)^{T} \\ 0 & (α I + β Y Y^{T}) \otimes I - β^{2} Y Y^{T} \otimes M (α I + β M^{T} M)^{- 1} M^{T} \end{matrix}] \dots \cdot [\begin{matrix} v e c (Z_{J}) \\ v e c (Z_{B}) \end{matrix}] = [\begin{matrix} v e c (F) \\ v e c (G) - β Y \otimes M (α I + β M^{T} M)^{- 1} v e c (F) \end{matrix}] .

$\begin{bmatrix}I \otimes (\alpha I + \beta M^TM) & \beta (Y \otimes M)^T \\ 0 & (\alpha I + \beta YY^T) \otimes I - \beta^2 YY^T \otimes M(\alpha I + \beta M^TM)^{-1} M^T\end{bmatrix} \dots \\ \cdot \begin{bmatrix}\mathrm{vec}(Z_J) \\ \mathrm{vec}(Z_B)\end{bmatrix} = \begin{bmatrix}\mathrm{vec}(F) \\ \mathrm{vec}(G) - \beta Y \otimes M(\alpha I + \beta M^TM)^{-1}\mathrm{vec}(F)\end{bmatrix}.$

Sans vecteur, les deux équations que nous devons résoudre en séquence sont,

$Z_{B} (α I + β Y Y^{T}) - (β M (α I + β M^{T} M)^{- 1} M^{T}) Z_{B} (β Y Y^{T}) \dots = G - β M (α I + β M^{T} M)^{- 1} F Y^{T}$ $Z_B (\alpha I + \beta YY^T) - (\beta M (\alpha I + \beta M^TM)^{-1} M^T)Z_B(\beta YY^T) \dots \\ = G - \beta M (\alpha I + \beta M^TM)^{-1} F Y^T$
$(α I + β M^{T} M) Z_{J} = F - β M^{T} Z_{B} Y .$ $(\alpha I + \beta M^TM) Z_J = F - \beta M^T Z_B Y.$

Solution du système du complément de Schur lorsque sont carrés, de haut rang $Y,M$

Dans cette section, nous résolvons le système du complément de Schur pour (équation 1. ci-dessus) en utilisant des SVD complets précalculés des matrices et en appliquant une version modifiée de l'algorithme de Bartels-Stewart pour le Sylvester équation. L'algorithme est légèrement modifié par rapport à la version standard pour tenir compte de l'extra sur le deuxième terme, ce qui en fait pas tout à fait l'équation de Sylvester. Une fois que est trouvé via la première équation, peut être trouvé facilement à partir de la deuxième équation. La deuxième équation est triviale à résoudre via n'importe quelle méthode que vous aimez. $Z_B$ $YY^T, MM^T, M^TM$ $\beta YY^T$ $Z_B$ $Z_J$

Cette méthode nécessite un coût initial pour précalculer deux SVD complets avant le démarrage du processus ADMM, mais est ensuite rapide à appliquer dans les itérations ADMM réelles. Comme la méthode traite des SVD complètes des matrices de contraintes, elle est appropriée lorsqu'elles sont proches du rang carré et élevé. Une méthode plus compliquée utilisant des SVD de bas rang est également possible, mais est présentée dans une section ultérieure.

La méthode évolue comme suit. Soit représentent précalculées Les décompositions de valeurs singulières complètes, et de condenser le côté droit d'être . Alors la première équation devient, Multiplication par les facteurs orthogonaux pour effacer la gauche et la droite et définir une nouvelle inconnue temporaire , cela devient encore,

Q D Q^{T} = Y Y^{T}, W Σ W^{T} = M M^{T}, V T V^{T} = M^{T} M

$Q D Q^T = YY^T, \\ W\Sigma W^T = MM^T, \\ VTV^T = M^TM$

H

$H$

Z_{B} Q (α I + D) Q^{T} - W β Σ (α I + Σ)^{- 1} Σ W^{T} Z_{B} Q D Q^{T} = H .

$Z_B Q (\alpha I + D) Q^T - W \beta \Sigma (\alpha I + \Sigma)^{-1}\Sigma W^T Z_B Q D Q^T = H.$

A = W^{T} Z_{B} Q

$A = W^T Z_B Q$

A (α I + D) - β Σ (α I + Σ)^{- 1} Σ A D = W H Q^{T} .

$A (\alpha I + D) - \beta \Sigma (\alpha I + \Sigma)^{-1}\Sigma A D = W H Q^T.$

Maintenant, nous pouvons trouver en résolvant le système diagonal , $A$

((α I + D) \otimes I + D \otimes β Σ (α I + Σ)^{- 1} Σ) v e c (A) = v e c (W H Q^{T}) .

$\left((\alpha I + D) \otimes I + D \otimes \beta \Sigma (\alpha I + \Sigma)^{-1}\Sigma \right)\mathrm{vec}(A) = \mathrm{vec}(W H Q^T).$

Après avoir trouvé , nous calculons , et connaissant nous résolvons la deuxième équation ci-dessus pour , ce qui est trivial puisque nous avons déjà la décomposition de valeurs propres pour . $A$ $Z_B = W A Q^T$ $Z_B$ $Z_J$ $M^TM$

Le coût initial calcule deux décompositions de valeurs propres définies positives symétriques de et , puis le coût par itération pour une résolution complète est dominé par une poignée de multiplications matrice-matrice, qui est du même ordre de magnitude comme faisant 1 sous-titrage CG. Si les décompositions de valeurs propres initiales sont trop coûteuses, elles peuvent être calculées de manière inexacte, par exemple, en mettant fin à l' itération de Lanczos plus tôt et en conservant les plus grands vecteurs propres. Ensuite, la méthode peut être utilisée comme un bon préconditionneur pour CG plutôt que comme un solveur direct. $M^TM$ $YY^T$

Méthode de la solution lorsque sont très rectangulaires ou ont une approximation de bas rang $M,Y$

Maintenant, nous tournons notre attention vers la résolution ou le préconditionnement des lorsque a) les matrices d'entrée sont très rectangulaires - ce qui signifie qu'elles ont beaucoup plus de lignes que de colonnes ou vice versa - ou b) qu'elles ont une approximation de bas rang. La dérivation ci-dessous implique une utilisation intensive de la formule de Woodbury, du complément de Schur et d'autres manipulations similaires. $Z_J,Z_B$ $M,Y$

Nous commençons avec notre système de complément Schur,

(α I + β Y Y^{T}) \otimes I - β^{2} Y Y^{T} \otimes M (α I + β M^{T} M)^{- 1} M^{T} .

$(\alpha I + \beta YY^T) \otimes I - \beta^2 YY^T \otimes M(\alpha I + \beta M^TM)^{-1} M^T.$

Quelques manipulations transforment ce système en une forme plus symétrique,

(α I + β I \otimes M M^{T} + β Y Y^{T} \otimes I) v e c (Z_{B}) = (I \otimes (I + \frac{β}{α} M M^{T})) v e c (H) .

$(\alpha I + \beta I \otimes MM^T + \beta YY^T \otimes I)\mathrm{vec}(Z_B) = \left(I \otimes (I + \frac{\beta}{\alpha}MM^T)\right)\mathrm{vec}(H).$

Maintenant, nous apportons les approximations de bas rang. Soit soit les SVD réduits ou les approximations de bas rang de et ( est un espace réservé et n'est pas utilisé). La substitution de ceux-ci dans notre système donne l'inverse de matrice suivant que nous souhaitons appliquer,

Q D^{1 / 2} Q_{2}^{T} = Y W Σ^{1 / 2} V^{T} = M

$Q D^{1/2} Q_2^T = Y \\ W \Sigma^{1/2} V^T = M$

Y

$Y$

M

$M$

Q_{2}

$Q_2$

(α I + β I \otimes W Σ W^{T} + β Y Y^{T} \otimes I)^{- 1} .

$(\alpha I + \beta I \otimes W \Sigma W^T + \beta YY^T \otimes I)^{-1}.$

Puisque la matrice que nous devons inverser est une mise à jour de bas rang de l'identité, la stratégie logique consiste à essayer d'utiliser la formule de Woodbury,

(A + U C U^{T})^{- 1} = A^{- 1} - A^{- 1} U (C^{- 1} + U^{T} A^{- 1} U)^{- 1} U^{T} A^{- 1} .

$(A + UCU^T)^{-1} = A^{-1} - A^{-1}U(C^{-1}+U^TA^{-1}U)^{-1}U^TA^{-1}.$

Cependant, un certain soin est nécessaire car les morceaux de bas rang et ne sont pas orthogonaux. Ainsi, pour appliquer la formule de Woodbury, nous collectons les deux mises à jour de bas rang en une seule grande mise à jour. Doint ainsi et en appliquant les rendements de formule Woodbury, $I \otimes W$ $Y \otimes I$

{(\frac{1}{α} I + β [\begin{matrix} I \otimes W & Q \otimes I \end{matrix}] [\begin{matrix} I \otimes Σ \\ D \otimes Y \end{matrix}] [\begin{matrix} I \otimes Σ^{T} \\ Q^{T} \otimes I \end{matrix}])}^{- 1} = α I - \frac{β}{α^{2}} [\begin{matrix} I \otimes W & Q \otimes I \end{matrix}] {[\begin{matrix} I \otimes (Σ^{- 1} + \frac{β}{α} I) & \frac{β}{α} Q \otimes W^{T} \\ \frac{β}{α} Q^{T} \otimes W & (D^{- 1} + \frac{β}{α} I) \otimes Y \end{matrix}]}^{- 1} [\begin{matrix} I \otimes Σ^{T} \\ Q^{T} \otimes I \end{matrix}] .

$\left(\frac{1}{\alpha} I + \beta \begin{bmatrix}I\otimes W & Q \otimes I\end{bmatrix}\begin{bmatrix}I \otimes \Sigma & \\ & D \otimes Y\end{bmatrix}\begin{bmatrix}I \otimes \Sigma^T \\ Q^T \otimes I\end{bmatrix}\right)^{-1} \\ = \alpha I - \frac{\beta}{\alpha^2}\begin{bmatrix}I\otimes W & Q \otimes I\end{bmatrix}\begin{bmatrix}I \otimes (\Sigma^{-1}+\frac{\beta}{\alpha}I) & \frac{\beta}{\alpha}Q \otimes W^T\\ \frac{\beta}{\alpha}Q^T\otimes W & (D^{-1} + \frac{\beta}{\alpha}I) \otimes Y\end{bmatrix}^{-1}\begin{bmatrix}I \otimes \Sigma^T \\ Q^T \otimes I\end{bmatrix}.$

L'inverse du noyau peut être calculé par la formule inverse 2x2 par blocs,

{[\begin{matrix} A & B \\ B^{T} & C \end{matrix}]}^{- 1} = [\begin{matrix} (A - B C^{- 1} B^{T})^{- 1} & - A^{- 1} B (C - B^{T} A^{- 1} B)^{- 1} \\ - C^{- 1} B^{T} (A - B C^{- 1} B^{T})^{- 1} & (C - B^{T} A^{- 1} B)^{- 1} \end{matrix}] .

$\begin{bmatrix}A & B \\ B^T & C\end{bmatrix}^{-1} = \begin{bmatrix}(A-BC^{-1}B^T)^{-1} & -A^{-1}B(C-B^TA^{-1}B)^{-1} \\ -C^{-1}B^T(A-BC^{-1}B^T)^{-1} & (C-B^TA^{-1}B)^{-1}\end{bmatrix}.$

Ce message est déjà assez long, donc je vais épargner les longs détails du calcul, mais le résultat final est que le fait de brancher les sous-matrices nécessaires dans l'inverse du bloc et de tout multiplier donne la forme explicite suivante pour l'inverse global,

(α I + β I \otimes M M^{T} + β Y Y^{T} \otimes I)^{- 1} = \frac{1}{α} I - \frac{β}{α^{2}} (t_{11} + s_{11} + t_{12} + s_{12} + t_{21} + s_{21} + t_{22} + s_{22}),

$(\alpha I + \beta I \otimes MM^T + \beta YY^T \otimes I)^{-1} = \frac{1}{\alpha} I - \frac{\beta}{\alpha^2}(t_{11} + s_{11} + t_{12} + s_{12} + t_{21} + s_{21} + t_{22} + s_{22}),$

où

\begin{aligned} t_{11} & = \frac{α}{β} I \otimes W l^{- 1} W^{T} \\ s_{11} & = (Q \otimes W l^{- 1}) D_{11} (Q^{T} \otimes l^{- 1} W^{T}) \\ t_{12} & = - \frac{α}{β} Q h^{- 1} Q^{T} \otimes W l^{- 1} W^{T} \\ s_{12} & = - (Q h^{- 1} \otimes W l^{- 1}) D_{22} (h^{- 1} Q^{T} \otimes W^{T}) \\ t_{21} & = t_{12} \\ s_{21} & = - (Q h^{- 1} \otimes W) D_{22} (h^{- 1} Q^{T} \otimes l^{- 1} W^{T}) \\ t_{22} & = \frac{α}{β} Q h^{- 1} Q^{T} \otimes I \\ s_{22} & = (Q h^{- 1} \otimes W) D_{22} (h^{- 1} Q^{T} \otimes W^{T}) \\ D_{11} & = \frac{α}{β} {(h \otimes I - I \otimes l^{- 1})}^{- 1} \\ D_{22} & = \frac{α}{β} {(I \otimes l - h^{- 1} \otimes I)}^{- 1} \\ l & = \frac{α}{β} Σ^{- 1} + I \\ h & = \frac{α}{β} D^{- 1} + I . \end{aligned}

$\begin{align} t_{11} &= \frac{\alpha}{\beta}I \otimes W l^{-1} W^T \\ s_{11} &= (Q \otimes W l^{-1})D_{11}(Q^T \otimes l^{-1}W^T) \\ t_{12} &= -\frac{\alpha}{\beta} Q h^{-1} Q^T \otimes W l^{-1} W^T \\ s_{12} &= -(Q h^{-1} \otimes W l^{-1})D_{22}(h^{-1} Q^T \otimes W^T) \\ t_{21} &= t_{12} \\ s_{21} &= -(Q h^{-1} \otimes W)D_{22}(h^{-1} Q^T \otimes l^{-1} W^T) \\ t_{22} &= \frac{\alpha}{\beta}Q h^{-1} Q^T \otimes I \\ s_{22} &= (Q h^{-1} \otimes W)D_{22}(h^{-1}Q^T \otimes W^T) \\ D_{11} &= \frac{\alpha}{\beta}\left(h \otimes I - I \otimes l^{-1} \right)^{-1} \\ D_{22} &= \frac{\alpha}{\beta}\left(I \otimes l - h^{-1} \otimes I \right)^{-1} \\ l &= \frac{\alpha}{\beta} \Sigma^{-1} + I \\ h &= \frac{\alpha}{\beta} D^{-1} + I. \end{align}$

Sous cette forme, nous pouvons appliquer l'inverse et trouver terme par terme à travers 8 sandwichs de multiplication de matrice gauche et droite. La formule générale pour appliquer la somme des produits Kronecker est, $Z_B$

((A_{1} \otimes B_{1}) + (A_{2} \otimes B_{2}) + \dots) v e c (C) = v e c (B_{1}^{T} C A_{1} + B_{2}^{T} C A_{2} + \dots) .

$\left((A_1 \otimes B_1) + (A_2 \otimes B_2) + \dots\right)\mathrm{vec}(C) = \mathrm{vec}(B_1^T C A_1 + B_2^T C A_2 + \dots ).$

Notez que tous les inverses explicites avec lesquels nous nous sommes retrouvés sont diagonaux, il n'y a donc rien à "résoudre".

Code de solveur linéaire

J'ai implémenté les deux solveurs ci-dessus dans Matlab. Ils semblent bien fonctionner. Le code du solveur est ici. $z_J,Z_B$

https://github.com/NickAlger/MeshADMM/blob/master/zkronsolve.m

Un script de test pour vérifier que les solveurs fonctionnent est ici. Il montre également par exemple comment appeler le code du solveur.

https://github.com/NickAlger/MeshADMM/blob/master/test_zkronsolve.m

Remarques finales

Les méthodes de type ADMM sont bien adaptées à des problèmes comme celui-ci, mais vous devrez rouler votre propre implémentation. La structure globale de la méthode est assez simple, donc l'implémentation n'est pas trop difficile dans quelque chose comme MATLAB.

La pièce manquante de ce message qui devrait être spécifiée pour définir complètement la méthode pour votre problème est un choix de paramètres de pénalité . Heureusement, la méthode est généralement assez robuste tant que les valeurs des paramètres ne sont pas folles. Le document Boyd et Parikh contient une section sur les paramètres de pénalité, tout comme les références, mais je voudrais simplement expérimenter les paramètres jusqu'à ce que vous obteniez des taux de convergence raisonnables. $\alpha,\beta$

Les présentées sont très efficaces si les matrices de contraintes sont soit a) denses, carrées et de rang élevé, soit b) ont une bonne approximation de bas rang. Un autre solveur utile qui pourrait être un sujet de travaux futurs serait un solveur optimisé pour le cas suivant - la matrice de contrainte est clairsemée et squareish et un rang élevé, mais il existe un bon préconditionneur pour . Ce serait le cas si, par exemple, est un Laplacien discrétisé. $Z_J,Z_B$ $M$ $\alpha I + MM^T$ $M$

— Nick Alger
source

Mettre en œuvre cela maintenant! Pour vérifier, la résolution de la matrice pour et devrait être symétrique / positive définie car elle provient des moindres carrés, non? Cela semble empiriquement vrai :-). Alors, CG est-il une meilleure option que GMRES?

Z_{B}

$Z_B$

Z_{J}

$Z_J$

— Justin Solomon

De plus, je pense que la mise à jour pour B est mauvaise? Je travaille sur cela plus en détail, mais rappelez-vous que B n'apparaît pas dans ma fonction d'énergie (pas de terme ), donc je ne suis pas sûr qu'il ne devrait prendre que des valeurs dans Suis-je penser à ce mal? Merci!

| B |

$|B|$

\pm (1 - 1 / α) .

$\pm (1-1/\alpha).$

— Justin Solomon

[plutôt, ]

B = Z_{B} - Γ_{B} / α

$B = Z_B-\Gamma_B/\alpha$

— Justin Solomon

Incroyable! Après avoir mis mes propres formules pour et (probablement proche / équivalent à ce que vous avez publié mais quelque chose ne fonctionnait pas), cela surpasse de loin la méthode IRLS. Merci!

J

$J$

B

$B$

— Justin Solomon

Bonne nouvelle. C'est tellement agréable de voir quand les contributions mènent à de vrais résultats.

— Michael Grant

Pouvez-vous vous permettre les SVD mentionnés par Geoffrey Irving? Si vous le pouvez, j'envisagerais une approche des moindres carrés itérativement repondérés (IRLS) . Cette approche résoudrait les problèmes de la forme où est une matrice de poids.

\begin{array}{ll} minimize & \sum_{i j} W_{i j} J_{i j}^{2} \\ subject to & M J + B Y = X \end{array}

$\begin{array}{ll}\text{minimize}&\sum_{ij} W_{ij}J_{ij}^2\\\text{subject to}&MJ+BY=X\end{array}$

W

$W$

Les itérations commencent par comme matrice de tous; cela donne un optimal . Les itérations se poursuivent avec où est une petite constante qui empêche la division par zéro. Je ne suis pas totalement sûr des critères de convergence, mais peut-être que le lien Wikipedia que j'ai proposé ci-dessus peut vous donner des références. $W^{(0)}$ $J^{(0)}$

W_{i j}^{(k + 1)} = {| max {J_{i j}^{(k)}, ϵ} |}^{- 1}

$W_{ij}^{(k+1)}=\left|\max\{J_{ij}^{(k)},\epsilon\}\right|^{-1}$

ϵ

$\epsilon$

Vous pouvez également envisager une méthode de premier ordre lissée. TFOCS, que j'ai co-écrit, pourrait gérer cela en utilisant son solveur "dual conique lissé" (SCD), mais il ne sera pas aussi facile à utiliser.

Si vous voulez essayer une méthode de point intérieur sans matrice, lisez le travail de Jacek Gondzio.

EDIT: hmm, il se pourrait que IRLS ne puisse pas utiliser le SVD pour calculer des solutions. Si c'est le cas, je retomberais sur l'un des autres choix.

— Michael Grant
source

Je ne sais pas si je serais en mesure d'utiliser le SVD ici, mais IRLS est une excellente idée malgré tout! La vitesse n'est pas aussi préoccupante que la mémoire, et embarrassant, j'ai utilisé IRLS pour une recherche connexe il y a quelques mois et cela a très bien fonctionné (me donner un coup de pied pour ne pas avoir essayé auparavant!). Même sans le SVD pour IRLS, il devrait être possible de le faire en utilisant un solveur linéaire comme CG qui n'a pas besoin du système complet. En fait, CG peut probablement être arrêté avec des contraintes assez lâches avant d'ajuster comme vous le suggérez. Je me penche également sur une approche ADMM, mais j'ai moins d'expérience avec cela.

W_{i j}

$W_{ij}$

— Justin Solomon

Oui, ADMM serait génial aussi. J'ai en fait rédigé une section vous suggérant d'éliminer complètement Y, mais j'ai vu plus tard que n'était pas carré.

M

$M$

— Michael Grant

Implémentation de la stratégie IRLS - elle converge mais ne fait pas trop bien numériquement car le système linéaire qu'il doit résoudre est mal conditionné grâce à une large gamme de ; en utilisant GMRES pour résoudre le système. J'essaierai ADMM ensuite!

w

$w$

— Justin Solomon