Dégradés pour skipgram word2vec

Je passe en revue les problèmes liés aux problèmes d'affectation écrits de la classe d'apprentissage profond de Stanford NLP http://cs224d.stanford.edu/assignment1/assignment1_soln

J'essaie de comprendre la réponse pour 3a où ils recherchent la dérivée du vecteur pour le mot central.

Supposons que l'on vous donne un vecteur de mot prédit correspondant au mot central c pour skipgram, et la prédiction de mot est faite avec la fonction softmax trouvée dans les modèles word2vec. $v_{c}$

$\hat{y}^{o} = p(o | c) = \frac {exp(u_{o}^{T} v_{c})}{\sum_{w=1}^{W}exp(u_{w}^{T} v_{c})}$

Où w désigne le w-ème mot et (w = 1,..., W) sont les vecteurs de mots «de sortie» pour tous les mots du vocabulaire. Supposons que le coût d'entropie croisée est appliqué à cette prédiction et que le mot o est le mot attendu. $u_w$

Où est la matrice de tous les vecteurs de sortie, et soit le vecteur de colonne de la prédiction softmax des mots, et y le label un-chaud qui est également un vecteur de colonne. $U = [u_1,u_2, · · · ,u_W ]$ $\hat{y}$

Où l'entropie croisée est $CE(y, \hat{y}) = − \sum_iy_i\log(\hat{y}_i)$

Ainsi, la réponse pour le gradient du vecteur central est $\frac{∂J}{∂v_c}= U^T(\hat{y} − y).$

Quelqu'un pourrait-il me montrer les étapes pour y parvenir? J'ai utilisé cette question comme dérivé de référence de la perte d'entropie croisée dans word2vec mais je veux spécifiquement connaître l'représentation. $U^T(\hat{y} − y).$

— Fonds Jake
source

Tout d'abord, exposons ce que nous avons et nos hypothèses sur les formes des différents vecteurs. Laisser,

$|W|$ être le nombre de mots du vocabulaire
$y$ et sont des vecteurs colonnes de formex 1 $\hat{y}$ $|W|$
$u_i$ et sont les vecteurs colonnes de forme X 1 ( = dimension des plongements) $v_j$ $D$ $D$
$y$ soit le vecteur de colonne codé à chaud de formex 1 $|W|$
$\hat{y}$ soit le vecteur de colonne de prédiction softmax de formex 1 $|W|$
$\hat{y}_i = P(i|c) = \frac{exp(u_i^Tv_c)}{\sum_{w=1}^Wexp(u_w^Tv_c)}$
Perte d'entropie croisée: $J = -\sum_{i=1}^Wy_ilog({\hat{y_i}})$
$U = [u_1, u_2, ...,u_k, ...u_W]$ soit une matrice composée de vecteurs de colonne . $u_k$

Maintenant, nous pouvons écrire Simplifier, Maintenant, nous savons que est codé à chaud, donc tous ses éléments sont nuls sauf celui à, disons, l' indice . Ce qui signifie qu'il n'y a qu'un seul terme non nul dans la sommation ci-dessus correspondant à et tous les autres termes de la sommation sont des zéros. Le coût peut donc également s'écrire: Remarque: au-dessus de est 1.

J = - \sum_{i = 1}^{W} y_{i} l o g (\frac{e x p (u_{i}^{T} v_{c})}{\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c})})

$J = - \sum_{i=1}^W y_i log(\frac{exp(u_i^Tv_c)}{\sum_{w=1}^Wexp(u_w^Tv_c)})$

J = - \sum_{i = 1}^{W} y_{i} [u_{i}^{T} v_{c} - l o g (\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}))]

$J = - \sum_{i=1}^Wy_i[u_i^Tv_c - log(\sum_{w=1}^Wexp(u_w^Tv_c))]$

y

$y$

k^{t h}

$k^{th}$

y_{k}

$y_k$

J = - y_{k} [u_{k}^{T} v_{c} - l o g (\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}))]

$J = -y_k[u_k^Tv_c - log(\sum_{w=1}^Wexp(u_w^Tv_c))]$

y_{k}

$y_k$

Résolution de : $\frac{\partial J}{\partial v_c}$

\frac{\partial J}{\partial v_{c}} = - [u_{k} - \frac{\sum_{w = 1}^{W} e x p (u_{w}^{T} v_{c}) u_{w}}{\sum_{x = 1}^{W} e x p (u_{x}^{T} v_{c})}]

$\frac{\partial J}{\partial v_c} = -[u_k - \frac{\sum_{w=1}^Wexp(u_w^Tv_c)u_w}{\sum_{x=1}^Wexp(u_x^Tv_c)}]$

Ce qui peut être réorganisé comme: En utilisant la définition (6), nous pouvons réécrire l'équation ci-dessus comme:

\frac{\partial J}{\partial v_{c}} = \sum_{w = 1}^{W} (\frac{e x p (u_{w}^{T} v_{c})}{\sum_{x = 1}^{W} e x p (u_{x}^{T} v_{c})} u_{w}) - u_{k}

$\frac{\partial J}{\partial v_c} = \sum_{w=1}^W (\frac{exp(u_w^Tv_c)}{\sum_{x=1}^W exp(u_x^Tv_c)}u_w) - u_k$

\frac{\partial J}{\partial v_{c}} = \sum_{w = 1}^{W} ({\hat{y}}_{w} u_{w}) - u_{k}

$\frac{\partial J}{\partial v_c} = \sum_{w=1}^W (\hat{y}_w u_w) - u_k$

Voyons maintenant comment cela peut être écrit en notation matricielle.

$u_k$ peut être écrit comme une multiplication vectorielle matricielle: $U.y$
Et est une transformation linéaire des vecteurs en mise à l'échelle par respectivement. Cela peut encore être écrit comme $\sum_{w=1}^W (\hat{y}_w u_w)$ $u_w$ $U$ $\hat{y}_w$ $U.\hat{y}$

Donc, le tout peut être succinctement écrit comme:

U [\hat{y} - y]

$U[\hat{y} -y]$

Enfin, notons que nous avons supposé que s était un vecteur de colonne. Si nous avions commencé avec des vecteurs de ligne, nous obtiendrions , comme ce que vous cherchiez. $u_i$ $U^T[\hat{y} -y]$

— Sachin Tyagi
source

Je voulais juste dire que c'est une merveilleuse explication de la dérivation! Cela aide vraiment les maths-suceurs comme moi. Je vous remercie!

— Eric Kim

+1 pour l'explication incroyable!

— bragboy

Je ne comprends pas pourquoi cette dérivation:

\frac{\partial}{\partial B} A^{T} B = A

$\frac{\partial}{\partial B} A^TB = A$

— Parth Tamane

@ParthTamane Veuillez jeter un œil à ceci - math.stackexchange.com/questions/3270789/…

— Sachin Tyagi