Détectez la parole humaine en audio en temps réel sur les téléphones mobiles

Je cherche à développer une application Android. Dans le cadre de la fonctionnalité, l'application devrait échantillonner au hasard 3 à 5 secondes d'audio et la classer comme contenant de la parole humaine ou non. Je comprends que ce concept s'appelle la détection d'activité vocale?

Quelle serait la meilleure façon de mettre en œuvre cela sur un téléphone mobile. J'ai développé un système de base utilisant des fonctionnalités et des seuils basés sur l'énergie. J'espère trouver quelque chose de moins sensible au bruit, probablement en utilisant des fonctionnalités telles que MFCC ou formants? J'ai parcouru un certain nombre d'articles, mais la plupart d'entre eux nécessitaient que je collecte des données et que je forme des modèles. Existe-t-il une bibliothèque ou un framework que je pourrais utiliser et qui fonctionnerait en temps réel?

audio speech real-time

— Dony George
source

Je crois que le code open source de http://www.speex.org/ open source contient du VAD. Essayez de voir si vous pouvez le voir et obtenir des idées d'implémentation, en respectant leur licence.

— VladP
source