J'essaie d'extraire des fonctionnalités d'un fichier son et de classer le son comme appartenant à une catégorie particulière (par exemple: aboiement de chien, moteur de véhicule, etc.). J'aimerais avoir des éclaircissements sur les choses suivantes:
1) Est-ce que c'est faisable du tout? Il existe des programmes qui peuvent reconnaître la parole et différencier les différents types d'écorces de chiens. Mais est-il possible d'avoir un programme qui puisse recevoir un échantillon sonore et simplement dire de quel type de son il s'agit? (Supposons qu'il existe une base de données contenant un grand nombre d'échantillons sonores à consulter). Les échantillons sonores d'entrée peuvent être un peu bruyants (entrée microphone).
2) Je suppose que la première étape est l'extraction des fonctionnalités audio. Cet article suggère d'extraire les MFCC et de les alimenter vers un algorithme d'apprentissage automatique. Le MFCC est-il suffisant? Y a-t-il d'autres fonctionnalités généralement utilisées pour la classification du son?
Merci pour votre temps.