Qu'est-ce que le Deep Bayesian Learning?

13

Qu'est-ce que le Deep Learning Bayésien et comment est-il lié aux statistiques bayésiennes traditionnelles et au Deep Learning traditionnel?

Quels sont les principaux concepts et mathématiques impliqués? Puis-je dire que ce sont juste des statistiques bayésiennes non paramétriques? Quels sont ses travaux phares ainsi que ses principaux développements et applications actuels?

PS: Le Bayesian Deep Learning suscite beaucoup d'attention, voir l'atelier NIPS.

bayesian deep-learning

— statslearner
source

10

En quittant le lien de votre atelier NIPS, Yee Whye Teh a prononcé un discours liminaire au NIPS sur le Bayesian Deep Learning (vidéo: https://www.youtube.com/watch?v=LVBvJsTr3rg , slides: http: //csml.stats. ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/). Je pense qu'à un certain moment de la conférence, Teh a résumé l'apprentissage profond bayésien en appliquant le cadre bayésien aux idées de l'apprentissage profond (comme l'apprentissage d'un postérieur sur les poids d'un réseau de neurones), et l'apprentissage bayésien profond en appliquant des idées de l'apprentissage profond à la Cadre bayésien (comme les processus gaussiens profonds ou les familles exponentielles profondes). Il existe bien sûr des idées qui chevauchent la ligne entre les deux concepts, comme les auto-encodeurs variationnels. Lorsque la plupart des gens parlent d'apprentissage approfondi bayésien, ils signifient généralement l'un des deux, et cela se reflète dans les articles acceptés lors de l'atelier que vous avez lié (avec l'atelier de l'année précédente). Alors que les idées remontent aux travaux de Neal sur l'apprentissage bayésien des réseaux de neurones dans les années 90 (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ), et il y a eu des travaux au fil des ans depuis lors, probablement l'un des articles récents les plus importants serait le papier d'autoencodeur variationnel original ( https://arxiv.org/pdf/1312.6114.pdf ).

— aleshing
source

10

Je suggérerais que vous obteniez d'abord une bonne compréhension de ce qu'est le modèle probabiliste sous-jacent dans un réseau neuronal bayésien traditionnel. Dans ce qui suit, certains termes seront écrits en gras . S'il vous plaît, essayez de googler ces termes pour trouver des informations plus détaillées. Ceci est juste un aperçu de base. J'espère que ça aide.

Prenons le cas de la régression dans les réseaux de neurones à action directe et établissons une notation.

Soit désignent les valeurs des prédicteurs au niveau de la couche d'entrée . Les valeurs des unités dans les couches internes seront notées , pour $(x_1,\dots,x_p) =: \left(z^{(0)}_1,\dots,z^{(0)}_{N_0}\right)$ $\left(z^{(\ell)}_1,\dots,z^{(\ell)}_{N_\ell}\right)$ . Enfin, nous avons lacouche de sortie . $\ell=1,\dots,L-1$ $(y_1,\dots,y_k) =:\left(z^{(L)}_1,\dots,z^{(L)}_{N_L}\right)$

Les poids et les biais de l'unité à la couche seront notés respectivement et pour , et . $i$ $\ell$ $w^{(\ell)}_{ij}$ $b^{(\ell)}_i$ $\ell=1,\dots,L$ $i=1\dots,N_\ell$ $j=1,\dots,N_{\ell-1}$

Soit la fonction d'activation de l'unité à la couche , pour et . $g^{(\ell)}_i : \mathbb{R}^{N_{\ell-1}} \to \mathbb{R}$ $i$ $\ell$ $\ell=1,\dots,L$ $i=1\dots,N_\ell$

Les fonctions d'activation couramment utilisées sont la logistique , ReLU (aka partie positive ) et tanh .

Maintenant, pour , définissons les fonctions de transition de couche $\ell=1,\dots,L$ dans laquelle

g^{(ℓ)} : R^{N_{ℓ - 1}} \to R^{N_{ℓ}} : (z_{1}^{(ℓ - 1)}, \dots, z_{N_{ℓ - 1}}^{(ℓ - 1)}) \mapsto (z_{1}^{(ℓ)}, \dots, z_{N_{ℓ}}^{(ℓ)}),

$G^{(\ell)} : \mathbb{R}^{N_{\ell-1}} \to \mathbb{R}^{N_\ell} : \left(z^{(\ell-1)}_1,\dots,z^{(\ell-1)}_{N_{\ell-1}} \right) \mapsto \left( z^{(\ell)}_1,\dots,z^{(\ell)}_{N_\ell} \right),$

pour

.

z_{i}^{(ℓ)} = g_{je}^{(ℓ)} (\sum_{j = 1}^{N_{ℓ - 1}} w_{je j}^{(ℓ)} z_{j}^{(ℓ - 1)} + b_{je}^{(ℓ)}),

$z^{(\ell)}_i = g^{(\ell)}_i\!\left( \sum_{j=1}^{N_{\ell-1}} w^{(\ell)}_{ij} z^{(\ell-1)}_j + b^{(\ell)}_i\right),$

i = 1, \dots, N_{ℓ}

$i=1,\dots,N_{\ell}$

Notant l'ensemble des poids et des biais de toutes les unités dans toutes les couches par , c'est-à-dire $\theta$ notre réseau neuronal est la famille de fonctions obtenue par composition des fonctions de transition de couche:

θ = {w_{je j}^{(ℓ)}, b_{je}^{(ℓ)} : ℓ = 1, \dots, L; je = 1 \dots, N_{ℓ}; j = 1, \dots, N_{ℓ - 1}},

$\theta = \left\{ w^{(\ell)}_{ij},b^{(\ell)}_i : \ell=1,\dots,L \,;\, i=1\dots,N_\ell \,;\, j=1,\dots,N_{\ell-1} \right\},$

G_{θ} : R^{p} \to R^{k}

$G_\theta : \mathbb{R}^p\to\mathbb{R}^k$

g_{θ} = g^{(L)} \circ g^{(L - 1)} \circ \dots \circ g^{(1)} .

$G_\theta = G^{(L)} \circ G^{(L-1)} \circ \dots \circ G^{(1)}.$

Il n'y a aucune probabilité impliquée dans la description ci-dessus. Le but de l'activité originale de réseau de neurones est l'ajustement de fonction .

Le «profond» dans le Deep Learning signifie l'existence de nombreuses couches internes dans les réseaux de neurones considérés.

$\{ (\mathbf{x}_i,\mathbf{y}_i) \in \mathbb{R}^p\times\mathbb{R}^k : i = 1,\dots,n \}$

\sum_{i = 1}^{n} ‖ y_{i} - G_{θ} (x_{i}) ‖^{2},

$\sum_{i=1}^n \lVert \mathbf{y}_i-G_\theta(\mathbf{x}_i) \rVert^2,$

θ

$\theta$

x^{*}

$\mathbf{x}^*$

G_{\hat{θ}} (x^{*})

$G_\hat{\theta}(\mathbf{x}^*)$

\hat{θ}

$\hat{\theta}$ comme pénalité à la fonction objectif, ou en utilisant l' abandon pendant l'entraînement. Geoffrey Hinton (alias Deep Learning Godfather) et ses collaborateurs ont inventé bon nombre de ces choses. Les réussites du Deep Learning sont partout.

L_{x, y} (θ, σ^{2}) \propto σ^{- n} \exp (- \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} ‖ y_{i} - G_{θ} (x_{i}) ‖^{2}),

$L_{\mathbf{x},\mathbf{y}}(\theta,\sigma^2)\propto \sigma^{-n} \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^n \lVert \mathbf{y}_i-G_\theta(\mathbf{x}_i) \rVert^2\right),$

π (θ, σ^{2}) \propto \exp (- \frac{1}{2 σ_{0}^{2}} \sum_{ℓ = 1}^{L} \sum_{je = 1}^{N_{ℓ}} ({(b_{je}^{(ℓ)})}^{2} + \sum_{j = 1}^{N_{ℓ - 1}} {(w_{je j}^{(ℓ)})}^{2})) \times π (σ^{2}) .

$\pi(\theta,\sigma^2) \propto \exp\left( -\frac{1}{2\sigma_0^2} \sum_{\ell=1}^L \sum_{i=1}^{N_\ell} \left( \left(b^{(\ell)}_i\right)^2 + \sum_{j=1}^{N_{\ell-1}} \left(w^{(\ell)}_{ij}\right)^2 \right) \right) \times \pi(\sigma^2).$

Par conséquent, les a priori marginaux pour les poids et les biais sont des distributions normales avec une moyenne nulle et une variance commune $\sigma_0^2$ . Ce modèle commun original peut être beaucoup plus impliqué, avec le compromis de rendre l'inférence plus difficile.

Le Bayesian Deep Learning est confronté à la tâche difficile d'échantillonner à partir de la distribution postérieure correspondante. Après cela, les prédictions sont faites naturellement avec la distribution prédictive postérieure , et les incertitudes impliquées dans ces prédictions sont entièrement quantifiées. Le Saint Graal dans le Bayesian Deep Learning est la construction d'une solution efficace et évolutive. De nombreuses méthodes de calcul ont été utilisées dans cette quête: l' échantillonnage de Metropolis-Hastings et Gibbs , l' hamiltonien de Monte Carlo et, plus récemment, l' inférence variationnelle .

Consultez les vidéos de la conférence NIPS pour quelques exemples de réussite: http://bayesiandeeplearning.org/

— Zen
source