Le problème clé avec les réseaux neuronaux a tendance à empêcher le sur-ajustement. La régularisation bayésienne (qui limite l'ampleur des poids) en est une approche, la stabilisation structurelle (c'est-à-dire la restriction du nombre de nœuds cachés et / ou des poids en est une autre). Aucune des deux approches n'est une panacée, et généralement une combinaison de régularisation et de stabilisation structurelle est meilleure (ce qui signifie que vous devez à nouveau effectuer une validation croisée pour sélectionner l'architecture du réseau - l'utilisation des preuves bayésiennes pour cela est une mauvaise idée car les preuves sont biaisées en conséquence de son utilisation dans le réglage des paramètres de régularisation et peu fiable en cas de spécification manquante du modèle). Ce qui fonctionne le mieux dépend essentiellement du problème, et la meilleure façon de le savoir est d'essayer les deux et de voir (utiliser par exemple la validation croisée pour estimer les performances de manière impartiale).
De plus, la régularisation ne doit pas nécessairement être bayésienne, vous pouvez choisir la quantité de régularisation du réseau en utilisant la validation croisée à la place. L'un des problèmes des méthodes bayésiennes est qu'elles peuvent donner de mauvais résultats si le modèle est mal spécifié, auquel cas les méthodes de régularisation basées sur la validation croisée peuvent être plus robustes.
Un autre point important est que toutes les formulations de réseaux neuronaux bayésiens ne sont pas identiques. Le cadre Evidence de MacKay a tendance à ne pas fonctionner correctement pour les problèmes de classification car l'approximation de Laplace qu'il utilise ne fonctionne pas très bien pour les distributions postérieures asymétriques pour les poids. L'approche MCMC de Radford Neal est susceptible de mieux fonctionner pour ces tâches, mais est coûteux en calcul et l'évaluation de la convergence, etc. n'est pas aussi simple.
Cependant, les modèles de réseaux neuronaux sont plutôt difficiles à obtenir et en pratique, il est plus facile d'obtenir de bonnes performances de généralisation à partir des méthodes du noyau ou des processus gaussiens, donc je les utiliserais plutôt pour la plupart des tâches, surtout s'il y a relativement peu de données de formation.
J'ai fait une étude empirique très approfondie récemment, mais je dois trouver une revue qui acceptera des études empiriques d'intérêt pour les praticiens, mais avec très peu de nouveau contenu de recherche.