Contexte: Une grande partie de la recherche moderne au cours des 4 dernières années (post alexnet ) semble s'être éloignée de l'utilisation de la formation préalable générative pour les réseaux de neurones afin d'obtenir des résultats de classification de pointe.
Par exemple, les meilleurs résultats pour mnist ici incluent seulement 2 articles sur les 50 premiers qui semblent utiliser des modèles génératifs, les deux étant des RBM. Les 48 autres articles gagnants portent sur différentes architectures discriminantes à action directe avec beaucoup d'efforts pour trouver de meilleures initialisations de poids et de nouvelles fonctions d'activation différentes du sigmoïde utilisé dans la RBM et dans de nombreux réseaux de neurones plus anciens.
Question: Existe - t-il une raison moderne d'utiliser des machines Boltzmann restreintes?
Sinon, existe-t-il une modification de facto que l'on peut appliquer à ces architectures de transmission pour rendre l'une de leurs couches générative?
Motivation: je demande parce que certains des modèles que je vois disponibles, généralement des variantes de la RBM, n'ont pas nécessairement d'homologues discriminants analogues évidents à ces couches / modèles génératifs, et vice versa. Par exemple:
CRBM (bien que l'on puisse affirmer que les architectures à action directe CNN utilisées sont l'architecture analogue discriminante)
En outre, il s'agissait clairement de pré alexnet également, de 2010, 2011 et 2009 respectueusement.