Dans " Réseaux de croyances profondes convolutionnelles pour un apprentissage évolutif et non supervisé des représentations hiérarchiques " par Lee et. ( PDF ) Des DBN convolutifs sont proposés. La méthode est également évaluée pour la classification des images. Cela semble logique, car il existe des caractéristiques naturelles de l'image locale, comme les petits coins et bords, etc.
Dans " L'apprentissage des fonctionnalités non supervisé pour la classification audio en utilisant des réseaux de croyances profondes convolutionnelles " par Lee et. Al. cette méthode est appliquée pour l'audio dans différents types de classifications. Identification du locuteur, identification du genre, classification du téléphone et aussi une classification de genre / artiste musical.
Comment la partie convolutionnelle de ce réseau peut-elle être interprétée pour l'audio, comme elle peut être expliquée pour les images comme des bords?