Modélisation mathématique des réseaux de neurones en tant que modèles graphiques


11

J'ai du mal à faire le lien mathématique entre un réseau de neurones et un modèle graphique.

Dans les modèles graphiques, l'idée est simple: la distribution de probabilité factorise en fonction des cliques du graphique, les potentiels étant généralement de la famille exponentielle.

Existe-t-il un raisonnement équivalent pour un réseau de neurones? Peut-on exprimer la distribution de probabilité sur les unités (variables) dans une machine Boltzmann restreinte ou un CNN en fonction de leur énergie, ou le produit des énergies entre unités?

De plus, la distribution de probabilité est-elle modélisée par un RBM ou un réseau de croyances profondes (par exemple avec des CNN) de la famille exponentielle?

J'espère trouver un texte qui formalise la connexion entre ces types modernes de réseaux de neurones et les statistiques de la même manière que Jordan et Wainwright l'ont fait pour les modèles graphiques avec leurs modèles graphiques, leurs familles exponentielles et leur inférence variationnelle . Tout pointeur serait génial.


1
IM (haineux) O le problème principal ici est que les réseaux de neurones ne sont pas vraiment des réseaux; ils ont pratiquement une topologie fixe et ont donc une chance mineure de stocker des informations à l'intérieur.

Avez-vous vu ce post récent ?
jerad

@ jerad Merci, je n'avais pas lu ce post. Ma question n'est pas tant sur la façon de combiner ces modèles (par exemple, comme lorsque Yann le dit "using deep nets as factors in an MRF"), mais plus sur la façon de regarder un filet profond comme un graphique de facteurs probabilistes. Quand Yann LeCun dit "of course deep Boltzmann Machines are a form of probabilistic factor graph themselves", je suis intéressé à voir cette connexion mathématiquement.
Amelio Vazquez-Reina

@mbq, nous avons vu certaines formes de stockage d'informations sur les composants de la couche cachée, par exemple https://distill.pub/2017/feature-visualization/( Comment les réseaux de neurones construisent leur compréhension des images ), en ce qu'une image complexe a des objets composants représentés par des nœuds de couche cachés. Les poids peuvent «altérer» la «topologie» de manière non discrète. Bien que je ne l'ai pas vu, certaines méthodes pourraient inclure des facteurs de retrait pour supprimer les bords et donc changer la topologie d'origine
Vass

Réponses:


6

Une autre bonne introduction sur le sujet est le cours CSC321 à l'Université de Toronto et le cours neuralnets-2012-001 sur Coursera, tous deux dispensés par Geoffrey Hinton.

De la vidéo sur Belief Nets:

Modèles graphiques

Les premiers modèles graphiques utilisaient des experts pour définir la structure du graphique et les probabilités conditionnelles. Les graphiques étaient peu connectés, et l'accent était mis sur la réalisation d'une inférence correcte, et non sur l'apprentissage (les connaissances venaient des experts).

Les réseaux de neurones

Pour les réseaux neuronaux, l'apprentissage était central. Câbler les connaissances n'était pas cool (OK, peut-être un peu). L'apprentissage est venu de l'apprentissage des données de formation, pas d'experts. Les réseaux de neurones ne visaient pas l'interprétabilité de la connectivité clairsemée pour faciliter l'inférence. Néanmoins, il existe des versions de réseaux de neurones des réseaux de croyances.


Ma compréhension est que les filets de croyance sont généralement trop densément connectés et que leurs cliques sont trop grandes pour être interprétables. Les réseaux de croyances utilisent la fonction sigmoïde pour intégrer les entrées, tandis que les modèles graphiques continus utilisent généralement la fonction gaussienne. Le sigmoïde facilite la formation du réseau, mais il est plus difficile à interpréter en termes de probabilité. Je crois que les deux font partie de la famille exponentielle.

Je suis loin d'être un expert en la matière, mais les notes de cours et les vidéos sont une excellente ressource.


1
Bienvenue sur le site. Nous essayons de construire un référentiel permanent d'informations statistiques de haute qualité sous forme de questions et réponses. Ainsi, nous nous méfions des réponses de lien uniquement, en raison de linkrot. Pouvez-vous publier une citation complète et un résumé des informations sur le lien, au cas où elles disparaissent?
gung - Rétablir Monica

C'est vraiment sympa. Merci d'avoir ajouté ces informations et bienvenue sur CV.
gung - Rétablir Monica

Je dois souligner que les informations contenues dans la première moitié de votre réponse ne sont pas tout à fait exactes, ce qui est dû, je suppose, à l'utilisation de "premiers modèles graphiques" (qui devraient être "très très tôt"). Pendant très longtemps, des modèles graphiques ont été utilisés pour apprendre tous les aspects de son architecture de la même manière que les réseaux de neurones. Mais votre suggestion ultérieure sur les sigmoïdes à la place des gaussiens dans les graphiques factoriels est intéressante!
GuSuku

4

Radford Neal a fait un bon travail dans ce domaine qui pourrait vous intéresser, y compris des travaux directs pour assimiler les modèles graphiques bayésiens aux réseaux de neurones. (Sa thèse portait apparemment sur ce sujet spécifique.)

Je ne suis pas assez familier avec ce travail pour fournir un résumé intelligent, mais je voulais vous donner le pointeur au cas où vous le trouveriez utile.


D'après ce que je comprends des travaux de Neal, Mackay, etc., ils utilisent l'optimisation bayésienne où les paramètres à optimiser sont les poids et les biais neuronaux, allant même jusqu'à montrer que la normalisation L2 des réseaux de neurones peut être considérée comme un gaussien avant poids. Ce programme a continué d'inclure le nombre de couches cachées, de neurones dans chaque couche, etc. parmi les variables d'optimisation.
GuSuku

Mais cela est différent de ce que l'OP a demandé, car la conception de l'architecture du réseau neuronal à tester lors de la prochaine exécution n'est qu'un cas particulier de conception expérimentale utilisant des modèles bayésiens comme moteur d'hyper-conception. Je pense que l'OP a demandé une cartographie entre le réseau neuronal et la modélisation bayésienne, au "même niveau".
GuSuku

4

Cela peut être un vieux fil, mais toujours une question pertinente.

L'exemple le plus frappant des connexions entre les réseaux neuronaux (NN) et les modèles graphiques probabilistes (PGM) est celui entre les machines Boltzmann (et ses variations comme BM restreint, BM profond, etc.) et les PGM non dirigés du champ aléatoire de Markov.

De même, les réseaux de croyance (et ses variantes comme Deep BN, etc.) sont un type de PGM dirigés de graphiques bayésiens

Pour en savoir plus, voir:

  1. Yann Lecun, " Un tutoriel sur l'apprentissage basé sur l'énergie " (2006)
  2. Yoshua Bengio, Ian Goodfellow et Aaron Courville, "Deep Learning", Ch 16 & 20 (livre en préparation, au moment d'écrire ces lignes)
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.