Extraction de fonctionnalités pour la classification sonore

15

J'essaie d'extraire des fonctionnalités d'un fichier son et de classer le son comme appartenant à une catégorie particulière (par exemple: aboiement de chien, moteur de véhicule, etc.). J'aimerais avoir des éclaircissements sur les choses suivantes:

1) Est-ce que c'est faisable du tout? Il existe des programmes qui peuvent reconnaître la parole et différencier les différents types d'écorces de chiens. Mais est-il possible d'avoir un programme qui puisse recevoir un échantillon sonore et simplement dire de quel type de son il s'agit? (Supposons qu'il existe une base de données contenant un grand nombre d'échantillons sonores à consulter). Les échantillons sonores d'entrée peuvent être un peu bruyants (entrée microphone).

2) Je suppose que la première étape est l'extraction des fonctionnalités audio. Cet article suggère d'extraire les MFCC et de les alimenter vers un algorithme d'apprentissage automatique. Le MFCC est-il suffisant? Y a-t-il d'autres fonctionnalités généralement utilisées pour la classification du son?

Merci pour votre temps.

— Kevin Martin Jose
source

15

À long terme, c'est faisable - dans quelle mesure? Tu verras. Cette tâche de classification du bruit environnemental n'est pas très bien étudiée. Le choix du paradigme d'apprentissage automatique est également crucial - approche statistique ou peut-être un classificateur binaire? Vous pouvez commencer par les GMM, les ANN et les SVM - j'opte pour les GMM et les ANN.
Oui, la plupart des gens utilisent les MFCC parce qu'ils sont bien corrélés avec ce que les gens entendent réellement et personne n'a rien trouvé de mieux depuis. Vous pouvez également vouloir ajouter des fonctionnalités supplémentaires telles que les descripteurs MPEG-7. Une optimisation appropriée des fonctionnalités doit être effectuée car parfois vous n'avez pas besoin d'autant de fonctionnalités, surtout lorsqu'elles ne sont pas séparables. Pour plus d'informations, veuillez vous référer à mes réponses précédentes:

Extraction de caractéristiques du spectre

Extraction MFCC

Détection des sons

— jojek
source

Je développerai ma réponse dans la soirée.

— jojek

toujours en attente d'une réponse élargie ...

— Nithin

Le soir ...

— jojek

4

L'audio non verbal (sans parler de l'environnement) semble être le petit frère des principaux types de médias d'apprentissage automatique comme les images, la parole, le texte.

Pour répondre à votre question, est-il possible de former un réseau pour identifier un son donné? Oui, ça l'est! Mais c'est difficile pour les mêmes raisons que l'apprentissage automatique est difficile.

Cependant, ce qui retient vraiment Audio, et pourquoi je l'appelle le petit frère des images et de la parole, c'est en raison du manque d'Audio d'un ensemble de données étiqueté à grande échelle. Pour la parole, il y a TIMIT, pour les images, il y a plusieurs ImagenNet, CIFAR, Caltech, pour le traitement du texte et du langage naturel, il y a de vastes volumes de littérature, etc.

À ma connaissance, les deux plus grands ensembles de données audio non verbaux étiquetés humains * sont les ensembles de données UrbanSounds et ESC-100, qui sont prohibitifs pour les approches d'apprentissage en profondeur. Il existe des résultats mitigés publiés sur ces ensembles de données utilisant des ConvNet à 2 couches.

Les fonctions MFCC sont une représentation de base bien établie de la reconnaissance vocale et de l'analyse audio en général. Mais il y a des tonnes d'autres représentations de fonctionnalités audio! Cet article donne une belle taxonomie des types de fonctionnalités audio.

Le travail le plus excitant sur la classification du son que j'ai vu récemment est effectué par des gens de DeepMind, appelés WaveNet .

— beeCwright
source

3

Voici une solution de classification sonore pour 10 classes: chien qui aboie, klaxon de voiture, enfants qui jouent etc. Elle est basée sur une bibliothèque tensorflow utilisant des réseaux de neurones. Les fonctionnalités sont extraites en convertissant des extraits sonores en spectrogramme

— abggcv
source

3

simplement relier n'est pas assez bon comme réponse.

— Gilles

Oui, veuillez développer ce que dit le lien.

— Peter K.

2

Mais merci pour le lien quand même.

— Kevin Martin Jose

En fait, j'essaie également de mieux comprendre les techniques utilisées dans le tutoriel fourni dans le lien. Mes connaissances en signaux sonores sont très limitées car je suis un spécialiste de la vision par ordinateur et du traitement d'images. J'essaierai de développer la réponse lorsque j'aurai une meilleure compréhension.

— abggcv

1

Oui, c'est extrêmement faisable. Bien que les NN soient excellents dans ce type de formation en classification, ils ne sont peut-être même pas nécessaires - avec un ensemble de fonctionnalités bien choisies, seuls les algorithmes de clustering classiques tels qu'un modèle de mélange gaussien, ou l'analyse des composants principaux, feraient probablement aussi bien . Les bibliothèques modernes peuvent corriger ce problème environ 95% du temps ou plus.

— johnwbyrd
source