Quels sont les avantages de l'utilisation d'un réseau neuronal bayésien

12

Récemment, j'ai lu des articles sur le réseau neuronal bayésien (BNN) [Neal, 1992] , [Neal, 2012] , qui donne une relation de probabilité entre l'entrée et la sortie dans un réseau neuronal. La formation d'un tel réseau neuronal se fait par MCMC, qui est différent de l'algorithme traditionnel de rétropropagation.

Ma question est: quel est l'avantage d'utiliser un tel réseau de neurones? Plus précisément, pourriez-vous fournir des exemples qui correspondent mieux à BNN qu'à NN?

bayesian neural-networks bayesian-network

— fishiwhj
source

9

Les réseaux neuronaux bayésiens sont utiles pour résoudre des problèmes dans des domaines où les données sont rares, comme moyen d'éviter le sur-ajustement. Ils battent souvent toutes les autres méthodes dans de telles situations. Des exemples d'applications sont la biologie moléculaire ( par exemple cet article ) et le diagnostic médical (domaines où les données proviennent souvent de travaux expiratoires coûteux et difficiles). En fait, les filets bayésiens sont universellement utiles et peuvent obtenir de meilleurs résultats pour un grand nombre de tâches, mais ils sont extrêmement difficiles à mettre à l'échelle pour de gros problèmes.

— Denis Tarasov
source

2

Pouvez-vous expliquer pourquoi les filets bayésiens sont difficiles à mettre à l'échelle?

— Ellis Valentiner

6

Un avantage du BNN par rapport au NN est que vous pouvez calculer automatiquement une erreur associée à vos prédictions lorsque vous traitez des données de cibles inconnues. Avec un BNN, nous faisons maintenant l'inférence bayésienne. Définissons notre prédiction BNN comme , où est la fonction NN, sont vos entrées , sont les paramètres NN, et x, t sont les entrées et les cibles d'entraînement. Cela devrait être compatible avec la syntaxe utilisée par Neal dans les liens fournis par @forecaster. Ensuite, nous pouvons calculer un écart-type de la distribution prédictive postérieure, que j'utiliserais naïvement comme précision sur la prédiction: $\bar{f}(x′|x,t)=∫f(x′,ω)p(ω|x,t)dω$ $f$ $x'$ $ω$ $\sigma(x′)=\sqrt{∫[f(x′,ω)−\bar{f}(x′|x,t)]^2p(ω|x,t)dω}$

— Michelle K
source

1

C'est un ajout intéressant à la conversation, mais il est un peu court par rapport à nos normes. Pourriez-vous élaborer un peu et peut-être inclure une référence?

— Sycorax dit de réintégrer Monica

Sûr. Avec un BNN, nous faisons maintenant l'inférence bayésienne. Définissons notre prédiction BNN comme , où f est le NN , x 'sont vos entrées, sont les paramètres NN, et sont les entrées et les cibles d'entraînement. Cela devrait être compatible avec la syntaxe utilisée par Neal dans les liens fournis par @forecaster. Ensuite, nous pouvons calculer un écart-type de la distribution prédictive postérieure, que j'utiliserais naïvement comme précision sur la prédiction:

\bar{f} (x^{'} | x, t) = \int f (x^{'}, ω) p (ω | x, t) d ω

$\bar{f}(x'|x,t) = \int{f(x',\omega)p(\omega|x,t) d\omega}$

ω

$\omega$

x, t

$x,t$

σ (x^{'}) = \sqrt{(} \int [f (x^{'}, ω) - \bar{f} (x^{'} | x, t)]^{2} p (ω | x, t) d ω)

$\sigma(x') = \sqrt(\int{[f(x',\omega)-\bar{f}(x'|x,t)]^2p(\omega|x,t) d\omega})$

— Michelle K

Veuillez le modifier dans votre réponse.

— Sycorax dit Réintégrer Monica