Je cherche à développer une application Android. Dans le cadre de la fonctionnalité, l'application devrait échantillonner au hasard 3 à 5 secondes d'audio et la classer comme contenant de la parole humaine ou non. Je comprends que ce concept s'appelle la détection d'activité vocale?
Quelle serait la meilleure façon de mettre en œuvre cela sur un téléphone mobile. J'ai développé un système de base utilisant des fonctionnalités et des seuils basés sur l'énergie. J'espère trouver quelque chose de moins sensible au bruit, probablement en utilisant des fonctionnalités telles que MFCC ou formants? J'ai parcouru un certain nombre d'articles, mais la plupart d'entre eux nécessitaient que je collecte des données et que je forme des modèles. Existe-t-il une bibliothèque ou un framework que je pourrais utiliser et qui fonctionnerait en temps réel?