J'essaie de détecter et de classer les sons non vocaux. Actuellement, j'utilise une série de spectres de puissance se chevauchant à partir de sons d'entraînement comme fonctionnalités que je recherche.
Lorsque je fais une analyse, je calcule simplement la même quantité de spectres superposés afin que le nombre de caractéristiques soit le même. En ce moment, les performances ne sont pas très bonnes, elles ne peuvent détecter que le silence par rapport au non-silence.
Quelles techniques existe-t-il pour ce type de détection de signal? L'une de mes préoccupations est que pour des sons de longueurs différentes dans le domaine temporel, cela entraînerait des longueurs de vecteurs de caractéristiques différentes, donc je ne peux pas utiliser le même classificateur, je suis coincé là-dessus.