Qu'est-ce qui justifie ce calcul de la dérivée d'une fonction matricielle?

Dans le cours d'apprentissage automatique d'Andrew Ng, il utilise cette formule:

$\nabla_A tr(ABA^TC) = CAB + C^TAB^T$

et il fait une preuve rapide qui est montrée ci-dessous:

$\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = \nabla_{\circ} tr(f(\circ)A^TC) + \nabla_{\circ}tr(f(A)\circ^T C)\\ =(A^TC)^Tf'(\circ) + (\nabla_{\circ^T}tr(f(A)\circ^T C)^T \\ = C^TAB^T + (\nabla_{\circ^T}tr(\circ^T)Cf(A))^T \\ =C^TAB^T + ((Cf(A))^T)^T \\ = C^TAB^T + CAB$

La preuve semble très dense sans aucun commentaire et j'ai du mal à la comprendre. Que s'est-il passé exactement de la deuxième à la troisième égalité?

machine-learning matrix derivative

— MoneyBall
source

Il doit faire des hypothèses spéciales sur les dimensions de

A

$A$ ,

B

$B$ et

C

$C$ , sinon cette formule n'a aucun sens en général. A gauche,

A

$A$ doit être une matrice

i \times j

$i\times j$ ,

B

$B$ une matrice

j \times j

$j\times j$ et

C

$C$ une matrice

i \times m

$i\times m$ pour les entiers non négatifs arbitraires

i, j, m

$i,j,m$ . Mais alors les produits à droite ne seraient définis que si

i = m

$i=m$ .

— whuber

@whuber je vois. Compte tenu des hypothèses, je ne comprends toujours pas comment la transition s'est produite de la deuxième à la troisième ligne où il présente .

\circ

$\circ$

— MoneyBall

Entre la deuxième et la troisième ligne, il laisse . Entre la deuxième et la troisième ligne, il a utilisé la règle du produit. plus tard, il utilise la règle de chaîne pour se débarrasser de .

f (A) = A B

$f(A)=AB$

f ()

$f()$

— Brian Borchers du

Il y a un abus subtil mais lourd de la notation qui rend la plupart des étapes déroutantes. Abordons ce problème en revenant aux définitions de la multiplication matricielle, de la transposition, des traces et des dérivés. Pour ceux qui souhaitent omettre les explications, passez simplement à la dernière section "Tout mettre ensemble" pour voir à quel point une démonstration rigoureuse peut être courte et simple.

Notation et concepts

Dimensions

Pour que l'expression un sens lorsque est une matrice , doit être une matrice (carrée) et doit être une matrice , d'où le produit est un matrice . Pour prendre la trace (qui est la somme des éléments diagonaux, ), puis , faisant de une matrice carrée. $ABA^\prime C$ $A$ $m\times n$ $B$ $n\times n$ $C$ $m\times p$ $m\times p$ $\operatorname{Tr}(X)=\sum_i X_{ii}$ $p=m$ $C$

Dérivés

La notation « » semble se référer à la dérivée d'une expression par rapport à . D' ordinaire, la différenciation est une opération effectuée sur les fonctions . Le dérivé en un point est une transformation linéaire . En choisissant des bases pour ces espaces vectoriels, une telle transformation peut être représentée comme une matrice Ce n'est pas le cas ici! $\nabla_A$ $A$ $f:\mathbb{R}^N\to\mathbb{R}^M$ $x\in \mathbb{R}^N$ $Df(x):\mathbb{R}^N\to\mathbb{R}^M$ $M\times N$

Les matrices comme vecteurs

A la place, est considéré comme un élément de : ses coefficients sont déroulés (généralement ligne par ligne ou colonne par colonne) dans un vecteur de longueur . La fonction a des valeurs réelles, d'où . Par conséquent, doit être une matrice : c'est un vecteur ligne représentant une forme linéaire sur . Cependant, les calculs de la question utilisent une manière différente de représenter les formes linéaires: leurs coefficients sont recomposés en matrices. $A$ $\mathbb{R}^{mn}$ $N=mn$ $f(A)=\operatorname{Tr}(ABA^\prime C)$ $M=1$ $Df(x)$ $1\times mn$ $\mathbb{R}^{mn}$ $m\times n$

La trace comme forme linéaire

Soit une matrice constante . Ensuite, par définition de la trace et de la multiplication matricielle, $\omega$ $m\times n$

\begin{aligned} Tr (A ω^{'}) & = \sum_{i = 1}^{m} (A ω^{'})_{i i} = \sum_{i = 1}^{m} (\sum_{j = 1}^{n} A_{i j} (ω^{'})_{j i}) = \sum_{i, j} ω_{i j} A_{i j} \end{aligned}

$\eqalign{ \operatorname{Tr}(A\omega^\prime) &= \sum_{i=1}^m(A\omega^\prime)_{ii} = \sum_{i=1}^m\left(\sum_{j=1}^n A_{ij}(\omega^\prime)_{ji}\right) = \sum_{i,j} \omega_{ij}A_{ij} }$

Cela exprime la combinaison linéaire la plus générale possible des coefficients de : est une matrice de la même forme que et son coefficient dans la ligne et la colonne est le coefficient de dans la combinaison linéaire. Parce que , les rôles de et peuvent changer, donnant l'expression équivalente $A$ $\omega$ $A$ $i$ $j$ $A_{ij}$ $\omega_{ij}A_{ij}=A_{ij}\omega_{ij}$ $\omega$ $A$

\begin{matrix} (1) & \sum_{i, j} ω_{i j} A_{i j} = Tr (A ω^{'}) = Tr (ω A^{'}) . \end{matrix}

$\sum_{i,j} \omega_{ij}A_{ij} = \operatorname{Tr}(A\omega^\prime) = \operatorname{Tr}(\omega A^\prime).\tag{1}$

En identifiant une matrice constante avec l'une des fonctions ou , nous pouvons représenter linéaire se forme sur l'espace de matrices comme matrices. (Ne les confondez pas avec des dérivées de fonctions de à !) $\omega$ $A\to \operatorname{Tr}(A \omega^\prime)$ $A\to \operatorname{Tr}(\omega A^\prime)$ $m\times n$ $m\times n$ $\mathbb{R}^n$ $\mathbb{R}^m$

Calcul d'un dérivé

La définition

Les dérivés de nombreuses fonctions matricielles rencontrées dans les statistiques sont calculés le plus facilement et de manière fiable à partir de la définition: vous n'avez pas vraiment besoin de recourir à des règles compliquées de différenciation matricielle. Cette définition dit que est différentiable en si et seulement s'il y a une transformation linéaire telle que $f$ $x$ $L$

f (x + h) - f (x) = L h + o (| h |)

$f(x+h) - f(x) = Lh + o(|h|)$

pour les déplacements arbitrairement petites . La notation petit-oh signifie que l'erreur commise dans l'approximation de la différence par est arbitrairement plus petite que la taille de pour un suffisamment petit . En particulier, nous pouvons toujours ignorer les erreurs proportionnelles à . $h\in \mathbb{R}^N$ $f(x+h)-f(x)$ $Lh$ $h$ $h$ $|h|^2$

Le calcul

Appliquons la définition à la fonction en question. Multipliant, développant et ignorant le terme avec un produit de deux , $h$

\begin{matrix} (2) & \begin{aligned} f (A + h) - f (A) & = Tr ((A + h) B (A + h)^{'} C) - Tr (A B A^{'} C) \\ = Tr (h B A^{'} C) + Tr (A B h^{'} C) + o (| h |) . \end{aligned} \end{matrix}

$\eqalign{ f(A+h)-f(A) &= \operatorname{Tr}((A+h)B(A+h)^\prime C) - \operatorname{Tr}(ABA^\prime C) \\ &= \operatorname{Tr}(hBA^\prime C) +\operatorname{Tr}(ABh^\prime C) + o(|h|).\tag{2} }$

Pour identifier la dérivée , nous devons la mettre dans le formulaire . Le premier terme à droite est déjà sous cette forme, avec . L'autre terme à droite a la forme pour . Écrivons ceci: $L=Df(A)$ $(1)$ $\omega = BA^\prime C$ $\operatorname{Tr}(Xh^\prime C)$ $X=AB$

\begin{matrix} (3) & Tr (X h^{'} C) = \sum_{i = 1}^{m} \sum_{j = 1}^{n} \sum_{k = 1}^{m} X_{i j} h_{k j} C_{k i} = \sum_{i, j, k} h_{k j} (C_{k i} X_{i j}) = Tr ((C X) h^{'}) . \end{matrix}

$\operatorname{Tr}(Xh^\prime C) = \sum_{i=1}^m\sum_{j=1}^n\sum_{k=1}^m X_{ij} h_{kj} C_{ki} = \sum_{i,j,k}h_{kj} \left(C_{ki}X_{ij}\right) =\operatorname{Tr}((CX)h^\prime).\tag{3}$

Rappelant , peut être réécrit $X=AB$ $(2)$

f (A + h) - f (A) = Tr (h B A^{'} C) + Tr (C A B h^{'}) + o (| h |) .

$f(A+h) - f(A) = \operatorname{Tr}(h\, BA^\prime C\,) + \operatorname{Tr}(CAB\, h^\prime\,)+o(|h|).$

C'est en ce sens que l'on peut considérer que la dérivée de en est car ces matrices jouent les rôles de dans les formules de trace . $f$ $A$

D f (A) = (B A^{'} C)^{'} + C A B = C^{'} A B^{'} + C A B,

$Df(A) = (BA^\prime C)^\prime + CAB = C^\prime A B^\prime + CAB,$

ω

$\omega$

(1)

$(1)$

Mettre tous ensemble

Voici donc une solution complète.

Soit une matrice , une matrice et une matrice . Soit . Soit une matrice avec des coefficients arbitrairement petits. Parce que (par identité ) est dérivable et sa dérivée est la forme linéaire déterminée par la matrice $A$ $m\times n$ $B$ $n\times n$ $C$ $m\times m$ $f(A) = \operatorname{Tr}(ABA^\prime C)$ $h$ $m\times n$ $(3)$
$\begin{aligned} f (A + h) - f (A) & = Tr (h B A^{'} C) + Tr (A B h^{'} C) + o (| h |) \\ = Tr (h (C^{'} A B^{'})^{'} + (C A B) h^{'}) + o (| h |), \end{aligned}$ $\eqalign{f(A+h) - f(A) &= \operatorname{Tr}(hBA^\prime C) +\operatorname{Tr}(ABh^\prime C) + o(|h|) \\ &=\operatorname{Tr}(h(C^\prime A B^\prime)^\prime + (CAB)h^\prime) + o(|h|),}$ $f$ $C^{'} A B^{'} + C A B .$ $C^\prime A B^\prime + CAB.$

Parce que cela ne prend qu'environ la moitié du travail et n'implique que les manipulations les plus élémentaires des matrices et des traces (multiplication et transposition), cela doit être considéré comme une démonstration plus simple - et sans doute plus visible - du résultat. Si vous voulez vraiment comprendre les différentes étapes de la démonstration originale, vous trouverez peut-être utile de les comparer aux calculs présentés ici.

— whuber
source

Il est utile de savoir qu'en général, chaque fois que les matrices sont de tailles compatibles. Connaître ce fait (3) est une étape triviale.

tr (A B C) = tr (C A B)

$\mbox{tr}(ABC)=\mbox{tr}(CAB)$

— Brian Borchers du

@Amoeba Je ne peux pas dire si vous essayez d'être humoristique ou non. Ni la question ni la réponse n'ont directement à voir avec les dérivées partielles. La forme est explicitement une forme linéaire définie sur l'espace vectoriel de matrices réelles. Quand quelqu'un prétend que la dérivée d'une fonction à un point est égale à une matrice , ce qu'ils veulent dire c'est que est le linéaire forme donnée par .

(1)

$(1)$

Mat (m, n)

$\operatorname{Mat}(m,n)$

m \times n

$m\times n$

f : Mat (m, n) \to R

$f:\operatorname{Mat}(m,n)\to\mathbb{R}$

A

$A$

ω

$\omega$

D f (A)

$Df(A)$

X :\to Tr (X ω^{'})

$X:\to\operatorname{Tr}(X\omega^{\,\prime})$

— whuber

@Amoeba C'est exactement ça - cela justifie amplement les affirmations de la première ligne de cette réponse. C'est pourquoi j'ai écrit "dans ce sens" et, plus tard dans le résumé, j'ai utilisé l'expression "déterminé par" plutôt que "égal". Je ne nierai pas que l'explication a été difficile; Je vais réfléchir à la façon de le clarifier et j'apprécie tous vos commentaires et suggestions.

— whuber

@ user10324 La plupart de ce que je poste sur ce site est ma propre formulation - je consulte rarement les sources (et je les documente quand je le fais). Ces articles sont des distillations de la lecture de nombreux livres et articles. Certains des meilleurs livres ne sont pas ceux qui sont rigoureusement mathématiques, mais qui ont magnifiquement expliqué et illustré les idées sous-jacentes. Les premiers qui viennent à l'esprit - par ordre de sophistication - sont Freedman, Pisani, & Purves, Statistics (toute édition); Jack Kiefer, Introduction à l'inférence statistique ; et Steven Shreve, Calcul stochastique des finances II .

— whuber

@whuber J'ai enfin une idée de la forme linéaire de la trace. Je m'excuse d'avoir posé la même question à nouveau sur des messages séparés alors que j'aurais pu lire votre explication plus attentivement. J'ai encore une question. Si votre équation peut être appliquée pour trouver des dérivées de n'importe quelle fonction matricielle, a-t-il la même dimension que ? Donc, si , alors ?

f (x + h) - f (x) = L h + o (| h |)

$f(x+h)−f(x)=Lh+o(|h|)$

h

$h$

x

$x$

x \in R^{m \times n}

$x \in \mathbb{R}^{m \times n}$

h \in R^{m \times n}

$h \in \mathbb{R}^{m \times n}$

— MoneyBall