Détectez la parole humaine en audio en temps réel sur les téléphones mobiles


9

Je cherche à développer une application Android. Dans le cadre de la fonctionnalité, l'application devrait échantillonner au hasard 3 à 5 secondes d'audio et la classer comme contenant de la parole humaine ou non. Je comprends que ce concept s'appelle la détection d'activité vocale?

Quelle serait la meilleure façon de mettre en œuvre cela sur un téléphone mobile. J'ai développé un système de base utilisant des fonctionnalités et des seuils basés sur l'énergie. J'espère trouver quelque chose de moins sensible au bruit, probablement en utilisant des fonctionnalités telles que MFCC ou formants? J'ai parcouru un certain nombre d'articles, mais la plupart d'entre eux nécessitaient que je collecte des données et que je forme des modèles. Existe-t-il une bibliothèque ou un framework que je pourrais utiliser et qui fonctionnerait en temps réel?

Réponses:


1

Je crois que le code open source de http://www.speex.org/ open source contient du VAD. Essayez de voir si vous pouvez le voir et obtenir des idées d'implémentation, en respectant leur licence.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.