Réponse bayésienne non paramétrique au deep learning?

8

Si je comprends bien, les réseaux de neurones profonds effectuent un "apprentissage de la représentation" en superposant les caractéristiques ensemble. Cela permet d'apprendre des structures dimensionnelles très élevées dans les entités. Bien sûr, c'est un modèle paramétrique avec un nombre fixe de paramètres, il a donc la limitation habituelle que la complexité du modèle peut être difficile à régler.

Existe-t-il un moyen bayésien (non paramétrique) d'apprendre de telles structures dans l'espace des caractéristiques, permettant à la complexité du modèle de s'adapter aux données? Les modèles associés incluent:

Dirichlet traite des modèles de mélange, qui permettent de partitionner l'espace en clusters illimités, permettant aux données de choisir un nombre fini
des modèles factoriels comme l'Indian Buffet Process (IBP), qui trouvent un nombre potentiellement infini de caractéristiques latentes (aka sujets) qui expliquent les données.

Cependant, il semble que l'IBP n'apprenne pas les représentations profondes. Il y a aussi le problème que ces méthodes sont conçues pour un apprentissage non supervisé et nous utilisons généralement l'apprentissage en profondeur pour les tâches supervisées. Existe-t-il une variante de l'IBP ou d'autres méthodes qui permettent aux représentations de croître à mesure que les données l'exigent?

— cgreen
source

Je ne sais pas vraiment si les réseaux de neurones profonds comptent comme un modèle paramétrique.

— Skander H.

6

Comme le note l'autre réponse, une alternative bayésienne non paramétrique courante aux réseaux de neurones est le processus gaussien . (Voir aussi ici ).

Cependant, la connexion est beaucoup plus profonde que cela. Considérez la classe de modèles connus sous le nom de réseaux neuronaux bayésiens (BNN). De tels modèles sont comme des réseaux de neurones profonds réguliers, sauf que chaque poids / paramètre dans le réseau a une distribution de probabilité décrivant sa valeur . Un réseau neuronal normal est alors un peu comme un cas particulier d'un BNN, sauf que la distribution de probabilité sur chaque poids est un delta de Dirac.

Un fait intéressant est que les réseaux de neurones bayésiens infiniment larges deviennent des processus gaussiens dans certaines conditions raisonnables.

La thèse de Neal, Bayesian Learning for Neural Networks (1995) le montre dans le cas d'un réseau monocouche avec un IID antérieur. Des travaux plus récents (voir Lee et al, Deep Neural Networks as Gaussian Processes , 2018 ) l'étendent aux réseaux plus profonds.

Vous pouvez donc peut-être considérer les grands BNN comme des approximations d'un modèle de processus gaussien non paramétrique.

En ce qui concerne votre question de manière plus générale, les gens ont souvent juste besoin de mappages dans l'apprentissage supervisé, ce qui semble non paramétrique bayésien n'est pas aussi courant (du moins pour l'instant), principalement pour des raisons de calcul (il en va de même pour les BNN, même avec les avancées récentes). dans l'inférence variationnelle). Cependant, dans l'apprentissage non supervisé, ils apparaissent plus souvent. Par exemple:

— user3658307
source

2

Hm je ne suis pas sûr, mais peut-être que les processus gaussiens profonds pourraient être un exemple de ce que vous recherchez?

Processus gaussiens profonds

Il y a aussi des travaux plus récents sur les processus gaussiens profonds sur le savant, mais je ne suis pas suffisamment informé pour vous dire ce qui serait bien à lire:

https://scholar.google.de/scholar?as_ylo=2016&q=deep+gaussian+processes&hl=de&as_sdt=0,5&as_vis=1

— robintibor
source