NN bayésiens régularisés par rapport aux NN classiques

J'ai vu quelques articles de recherche qui affirment que les réseaux de neurones classiques manquent généralement d'une capacité de généralisation satisfaisante, ce qui entraîne généralement des prévisions imprécises, et les ANN régularisés bayésiens (BRANN) sont plus robustes que les réseaux de rétropropagation standard et peuvent réduire ou éliminer le besoin d'une longue validation croisée.

Cependant, ces articles ne sont pas en mesure de motiver / justifier correctement cette affirmation.

De quelles manières ou à quelles fins particulières les BRANN sont-ils meilleurs que les NN classiques? Et pourquoi?

bayesian neural-networks

— pnp
source

Le problème clé avec les réseaux neuronaux a tendance à empêcher le sur-ajustement. La régularisation bayésienne (qui limite l'ampleur des poids) en est une approche, la stabilisation structurelle (c'est-à-dire la restriction du nombre de nœuds cachés et / ou des poids en est une autre). Aucune des deux approches n'est une panacée, et généralement une combinaison de régularisation et de stabilisation structurelle est meilleure (ce qui signifie que vous devez à nouveau effectuer une validation croisée pour sélectionner l'architecture du réseau - l'utilisation des preuves bayésiennes pour cela est une mauvaise idée car les preuves sont biaisées en conséquence de son utilisation dans le réglage des paramètres de régularisation et peu fiable en cas de spécification manquante du modèle). Ce qui fonctionne le mieux dépend essentiellement du problème, et la meilleure façon de le savoir est d'essayer les deux et de voir (utiliser par exemple la validation croisée pour estimer les performances de manière impartiale).

De plus, la régularisation ne doit pas nécessairement être bayésienne, vous pouvez choisir la quantité de régularisation du réseau en utilisant la validation croisée à la place. L'un des problèmes des méthodes bayésiennes est qu'elles peuvent donner de mauvais résultats si le modèle est mal spécifié, auquel cas les méthodes de régularisation basées sur la validation croisée peuvent être plus robustes.

Un autre point important est que toutes les formulations de réseaux neuronaux bayésiens ne sont pas identiques. Le cadre Evidence de MacKay a tendance à ne pas fonctionner correctement pour les problèmes de classification car l'approximation de Laplace qu'il utilise ne fonctionne pas très bien pour les distributions postérieures asymétriques pour les poids. L'approche MCMC de Radford Neal est susceptible de mieux fonctionner pour ces tâches, mais est coûteux en calcul et l'évaluation de la convergence, etc. n'est pas aussi simple.

Cependant, les modèles de réseaux neuronaux sont plutôt difficiles à obtenir et en pratique, il est plus facile d'obtenir de bonnes performances de généralisation à partir des méthodes du noyau ou des processus gaussiens, donc je les utiliserais plutôt pour la plupart des tâches, surtout s'il y a relativement peu de données de formation.

J'ai fait une étude empirique très approfondie récemment, mais je dois trouver une revue qui acceptera des études empiriques d'intérêt pour les praticiens, mais avec très peu de nouveau contenu de recherche.

— Dikran Marsupial
source

Comment voulez-vous dire que "les preuves sont biaisées en raison de leur utilisation dans le réglage des paramètres de régularisation"? Ces paramètres, généralement

α

$\alpha$ et

β

$\beta$ dans la notation de Bishop, sont mis à la main, sur la base de la précision estimée des données et des croyances sur les poids du modèle.

— Ytsen de Boer

@YtsendeBoer La preuve (vraisemblance marginale) est évaluée sur un ensemble fini de données, donc sa valeur dépend de l'échantillon particulier, et un tel a une composante qui est essentiellement juste du bruit. Si vous ajustez le modèle en optimisant les preuves, une partie de l'amélioration apparente sera due à l'ajustement du bruit dans la probabilité marginale, ainsi qu'aux changements qui améliorent réellement les performances. Ainsi, après l'optimisation, les preuves donnent une vue optimiste sur les performances réelles du modèle et ne sont donc pas un bon guide pour, par exemple, l'optimisation de la structure par la suite.

— Dikran Marsupial

Vous semblez suggérer que le réglage du modèle en optimisant les preuves conduit à un sur-ajustement, donc la régularisation bayésienne ne fonctionne pas. Mais le modèle doit être ajusté en optimisant les temps de vraisemblance de la priorité des poids du modèle (en gardant

α

$\alpha$ et

β

$\beta$ fixé). Après cela, le meilleur modèle peut être choisi en évaluant leurs preuves. Il me semble qu'un biais n'est introduit qu'une fois que l'on optimise les preuves pour trouver le plus «approprié» avant pour les pondérations du modèle, ou pire, les données. J'accepte qu'un modèle choisi de cette manière ne soit pas fiable et doit être vérifié avec de nouvelles données.

— Ytsen de Boer

Si vous gardez le

a l p h a

$alpha$ et

b e t a

$beta$ constante, ce n'est pas la régularisation bayésienne, juste la régularisation. Si vous choisissez le meilleur modèle en fonction des preuves, cela optimise les preuves et introduit la possibilité de sur-ajuster le critère de sélection du modèle. Je ne dis pas que la régularisation bayésienne (c'est-à-dire le cadre de preuves de MacKay) ne fonctionne pas, elle le fait jusqu'à un certain point, mais elle est susceptible d'échouer s'il y a trop peu de données ou trop d'hyper-paramètres (par exemple ARD). Une optimisation ou un ajustement excessifs des preuves peuvent entraîner un surajustement ou un sous-ajustement des données.

— Dikran Marsupial

Vous utilisez les BRANN aux mêmes fins que les ANN ordinaires, généralement la classification et la régression. Comme le dit Dikran Marsupial, ils sont meilleurs car ils sont plus robustes contre le surapprentissage et vous permettent de travailler avec un plus grand nombre de neurones sans courir de surapprentissage. En outre, il vous fournit des barres d'erreur sur les sorties, c'est-à-dire que vous avez une mesure de la confiance de chacune des sorties.

Néanmoins, de nouvelles techniques comme le décrochage et le maxout semblent avoir supplanté cette technique, à la fois parce qu'elles sont plus faciles à utiliser et donnent de meilleurs résultats. Ici, le décrochage est montré pour effectuer la mise à l'échelle et la régularisation dans un certain sens.

Néanmoins, si vous êtes intéressé par les détails, vous pouvez consulter les articles de David MacKay (le gars qui a remporté certains concours avec cette technique).

— jpmuc
source

Vous n'expliquez vraiment pas comment les BRANN aident à empêcher le sur-ajustement, etc.

— nbro