En cherchant une réponse à ce problème, j'ai trouvé ce forum alors j'ai décidé de croiser cette question à moi de Stack Overflow.
Je cherche une méthode pour déterminer la similitude entre un segment audio et une voix humaine, qui s'exprime numériquement.
J'ai beaucoup cherché, mais ce que j'ai trouvé jusqu'à présent (détaillé ci-dessous) ne correspond pas vraiment à ce dont j'ai besoin:
Une méthode consiste à utiliser un logiciel de reconnaissance vocale pour obtenir des mots à partir d'un segment audio. Cependant, cette méthode n'est pas en mesure de déterminer à quel point l'audio est "similaire" à la parole humaine; il peut souvent dire s'il y a ou non des mots dans l'audio, mais s'il n'y a pas de mots définis, il ne peut pas dire que fermer l'audio est d'avoir de tels mots.
Exemples: CMU Sphinx , Dragonfly , SHoUTLa méthode la plus prometteuse est appelée détection d'activité vocale (VAD). Cependant, cela a tendance à avoir les mêmes problèmes: les algorithmes / programmes utilisant VAD ont tendance à renvoyer simplement si le seuil d'activité a été atteint ou non, et aucune valeur de «similitude» avant ou après ce seuil. Alternativement, beaucoup recherchent juste le volume, pas la similitude avec la parole humaine.
Exemples: Speex , Listener , FreeSWITCH
Des idées?