Bon tutoriel pour les machines Boltzmann restreintes (RBM)

10

J'étudie la machine Boltzmann restreinte (RBM) et j'ai des problèmes pour comprendre les calculs de vraisemblance des journaux par rapport aux paramètres de la RBM. Même si de nombreux articles de recherche sur la GAR ont été publiés, il n'y a pas d'étapes détaillées des dérivés. Après une recherche en ligne, j'ai pu les trouver dans ce document:

Fischer, A. et Igel, C. (2012). Une introduction aux machines Boltzmann restreintes. Dans L. Alvarez et al. (Eds.): CIARP, LNCS 7441, pp. 14–36, Springer-Verlag: Berlin-Heidelberg. ( pdf )

Cependant, les détails de ce document sont trop avancés pour moi. Quelqu'un peut-il m'orienter vers un bon tutoriel / ensemble de notes de cours sur la GAR?

Edit: @David, la section déroutante est montrée ci-dessous (équation 29 à la page 26):

$\begin{aligned} \frac{\partial \ln L (θ | v)}{\partial w_{i j}} & = - \sum_{h} p (h | v) \frac{\partial E (v, h)}{\partial w_{i j}} + \sum_{v, h} p (v, h) \frac{\partial E (v, h)}{\partial w_{i j}} \\ = \sum_{h} p (h | v) h_{i} v_{j} - \sum_{v} p (v) \sum_{h} p (h | v) h_{i} v_{j} \\ (29) & = p (H_{i} = 1 | v) v_{j} - \sum_{v} p (v) p (H_{i} = 1 | v) v_{j} . \end{aligned}$ $\begin{align} \frac{\partial\ln\mathcal{L}(\theta|v)}{\partial w_{ij}} &= -\sum_h p(h|v)\frac{\partial E(v, h)}{\partial w_{ij}} + \sum_{v,h} p(v,h)\frac{\partial E(v,h)}{\partial w_{ij}} \\[5pt] &= \sum_h p(h|v)h_iv_j - \sum_v p(v) \sum_h p(h|v)h_iv_j \\[5pt] &= \color{orange}{\boxed{\color{black}{p(H_i=1|v)}}}v_j - \sum_v p(v) \color{orange}{\boxed{\color{black}{p(H_i=1|v)}}}v_j\; . \tag{29} \end{align}$

references rbm

— Upul
source

Pouvez-vous être plus précis sur les étapes qui vous déroutent?

— David J. Harris

1

une bonne lecture est le chapitre 5 de l'apprentissage des architectures profondes pour l'IA ( iro.umontreal.ca/~bengioy/papers/ftml_book.pdf )

— dksahuji

@dksahuji merci pour INFO, également prof: Bengio est en train d'écrire un DL et le brouillon initial

— Upul

Ce didacticiel contient des explications sur les mathématiques de RBM ( Un didacticiel sur les machines Boltzmann restreintes ).

— Jiang Xiang

7

Je sais que c'est un peu tard, mais peut-être que ça aide. Pour obtenir le premier terme de votre équation, il faut comme suit: Nous avons supposé que l'indépendance conditionnelle entre les les unités cachées, étant donné les unités visibles, existent. Ainsi, nous pouvons factoriser la distribution de probabilité conjointe conditionnelle pour les états cachés.

\begin{aligned} \sum_{h} p (h | v) h_{i} v_{j} & = v_{j} \sum_{h_{1}} . . . \sum_{h_{i}} . . . \sum_{h_{n}} p (h_{1}, . . ., h_{i}, . . . h_{n} | v) h_{i} \\ = v_{j} \sum_{h_{i}} \sum_{h_{_i}} p (h_{i}, h_{_i} | v) h_{i} \end{aligned}

$\begin{align} \sum_{\mathbf{h}} p(\mathbf{h} | \mathbf{v})h_iv_j &= v_j \sum_{h_1}...\sum_{h_i}...\sum_{h_n} p(h_1,...,h_i,...h_n | \mathbf{v}) h_i \\[5pt] &= v_j \sum_{h_i} \sum_{\mathbf{h_{\_ i}}}p(h_i, \mathbf{h_{\_i}} | \mathbf{v}) h_i \end{align}$

\begin{aligned} = v_{j} \sum_{h_{i}} \sum_{h_{_i}} p (h_{i} | v) h_{i} p (h_{_i} | v) \\ = v_{j} \sum_{h_{i}} p (h_{i} | v) h_{i} \sum_{h_{_i}} p (h_{_i} | v) \end{aligned}

$\begin{align} &= v_j \sum_{h_i} \sum_{\mathbf{h_{\_ i}}} p(h_i | \mathbf{v}) h_i \: p(\mathbf{h_{\_ i}}|\mathbf{v}) \\[5pt] &= v_j \sum_{h_i} p(h_i | \mathbf{v}) h_i \: \sum_{\mathbf{h_{\_ i}}} p(\mathbf{h_{\_ i}}|\mathbf{v}) \end{align}$ Le dernier terme est égal à , car nous faisons la somme de tous les états. Ainsi, ce qui reste, c'est le premier terme. Puisque ne prend que les états et nous nous retrouvons avec:

1

$1$

h_{i}

$h_i$

1

$1$

0

$0$

= v_{j} p (H_{i} = 1 | v)

$\hspace{-25mm}= v_j \: p(H_i = 1 | \mathbf{v})$

— peschn
source

7

Il y a un tutoriel décent des RBM sur le site de deplearning .
Ce billet de blog ( Introduction aux machines Boltzmann restreintes ) est écrit dans un langage plus simple et explique très bien les bases de RBMS:
De plus, la meilleure référence est peut-être le cours Neural Networks de Geoff Hinton sur Coursea:

Je ne sais pas si vous pouvez accéder au cours et aux vidéos après la fin du cours.

— sjm.majewski
source

2

Il y a encore des gens qui s'inscrivent à la classe Coursera et postent sur le forum. Vous pouvez toujours voir toutes les conférences et accéder à tous les quiz et les affectations de programmation (parmi les quiz). Ces informations seront probablement à jour jusqu'à ce que le cours soit à nouveau proposé. Je recommande de m'inscrire au cours juste pour voir ou télécharger le matériel.

— Douglas Zare

1

La case orange de gauche vous donne la valeur attendue du gradient d'énergie sur toutes les configurations cachées étant donné qu'un vecteur visible est fixé sur les unités visibles (l'attente sur les données car il utilise un échantillon de votre ensemble d'entraînement). Le terme lui-même est le produit de (1) la probabilité de voir une unité cachée particulière i sur étant donné qu'un vecteur v est fixé sur les unités visibles et (2) l'état d'une unité visible particulière j.

La boîte orange droite est la même chose que la gauche, sauf que vous faites ce qui est dans la boîte orange gauche pour chaque configuration visible possible au lieu de celle qui est fixée sur les unités visibles (l'attente par rapport au modèle puisque rien n'est serré sur les unités visibles).

— avalon
source

1

Le chapitre 5 du cours d'Hugo Larochelle sur l'apprentissage automatique ( vidéo ) est la meilleure introduction que j'ai trouvée jusqu'à présent.

Le dérivé de la fonction de perte n'est pas dérivé dans ces conférences, mais ce n'est pas difficile à faire (je peux publier une analyse de mes calculs si nécessaire, mais ce n'est vraiment pas si difficile). Je suis toujours à la recherche d'un bon manuel couvrant ce sujet mais principalement il n'y a que des articles. Il y a un bon aperçu des articles du chapitre 20 du Deep Learning Book de Bengio .

— jakab922
source