Reconnaissance de formes pour les données temporelles


9

J'essaie de détecter et de classer les sons non vocaux. Actuellement, j'utilise une série de spectres de puissance se chevauchant à partir de sons d'entraînement comme fonctionnalités que je recherche.

Lorsque je fais une analyse, je calcule simplement la même quantité de spectres superposés afin que le nombre de caractéristiques soit le même. En ce moment, les performances ne sont pas très bonnes, elles ne peuvent détecter que le silence par rapport au non-silence.

Quelles techniques existe-t-il pour ce type de détection de signal? L'une de mes préoccupations est que pour des sons de longueurs différentes dans le domaine temporel, cela entraînerait des longueurs de vecteurs de caractéristiques différentes, donc je ne peux pas utiliser le même classificateur, je suis coincé là-dessus.

Réponses:


3

Essayez-vous de détecter la parole par rapport à la non-parole, ou y a-t-il des classes de sons autres que la parole que vous essayez de discriminer? Je ne comprends pas bien votre question.

Je pense qu'une première approche décente serait de bloquer votre signal dans des trames et de calculer les coefficients Cepstral Mel-Frequency (MFCC), ainsi que les delta-MFCC (différences entre les MFCC des trames adjacentes) et les delta-delta MFCC (différences entre les MFCC) dans des cadres séparés de deux cadres). Ce n'est pas la seule façon de le faire, mais sans une connaissance plus spécifique du domaine problématique, c'est probablement un bon point de départ.

Une simple recherche sur Google devrait vous donner une bonne référence sur la façon de calculer les MFCC si vous ne les connaissez pas déjà. Fondamentalement, vous prenez la DFT, prenez les amplitudes, calculez les énergies à l'intérieur des fenêtres triangulaires correspondant à l'audition humaine, prenez le DCT de ces coefficients, essentiellement comme une étape de compression, puis jetez les coefficients d'ordre élevé, ne prenant généralement que les douze premiers coefficients . J'ai une explication de la signification de l'étape DCT dans ce post: Comment interpréter l'étape DCT dans le processus d'extraction MFCC?

Vous pourriez alors, disons, utiliser ces coefficients comme caractéristiques pour un SVM.


2

Je pense que vous regardez généralement un problème de détection de la parole , qui existe depuis toujours, et il existe maintenant une multitude de méthodes pour le faire. Il semble que ce document , par exemple, utilise également des techniques spectrales, vous pouvez donc commencer par là. Une bonne vieille recherche Google renverra de nombreux résultats avec des liens vers des articles et des articles.

En général, il existe deux approches quelque peu distinctes de la détection de la parole. L'un permet de supposer un bon rapport parole / bruit (la voix est plus forte que le bruit ambiant, la musique et tout autre contenu non pertinent), et l'autre ne fait pas de telles hypothèses et essaie d'identifier la présence de la parole dans des signaux très bruyants (discours enfoui dans bruit). Selon celui que vous essayez de faire, vous finirez par regarder des articles très différents. Peut-être que si vous clarifiez un peu votre question et expliquez les types de signaux vocaux avec lesquels vous travaillez, ce site pourrait être plus utile.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.