J'extrait des clips audio d'un fichier vidéo pour la reconnaissance vocale. Ces vidéos proviennent d'appareils mobiles / autres faits à la main et contiennent donc beaucoup de bruit. Je souhaite réduire le bruit de fond de l'audio afin que la parole que je transmets à mon moteur de reconnaissance vocale soit claire. J'utilise ffmpeg pour faire tout cela, mais je suis bloqué sur la phase de réduction du bruit.
Jusqu'à présent, j'ai essayé les filtres suivants:
ffmpeg-20140324-git-63dbba6-win64-static\bin>ffmpeg -i i nput.wav -filter_complex "highpass=f=400,lowpass=f=1800" out2.wav
ffmpeg -i i nput.wav -af "equalizer=f=1000:width_type=h:width=900:g=-10" output.wav
ffmpeg -i i nput.wav -af "bandreject=f=1200:width_type=h:width=900:g=-10" output.wav
Mais les résultats sont très décevants. Mon raisonnement était que, puisque la parole se situe dans une plage de 300 à 3000 Hz, je peux filtrer toutes les autres fréquences pour supprimer tout bruit de fond. Qu'est-ce que je rate?
De plus, j'ai lu sur les filtres weiner qui pourraient être utilisés pour des améliorations de la parole et j'ai trouvé cela, mais je ne sais pas comment l'utiliser.