Quelle entrée utiliser pour un modèle AR d'un son de voyelle?


8

J'ai enregistré une prononciation de 2 secondes d'un son de voyelle. Les 0,12 premières secondes environ du signal sont indiquées ci-dessous.

Maintenant, j'ai construit un modèle de 8e ordre auto-régressif (AR) pour compresser ce signal. (En fait, je ne fais que modéliser 160 échantillons ou 0,02 s à la fois.) La arfonction de la boîte à outils d'identification système de Matlab peut estimer les paramètres pour un ajustement de spectre "optimal".

Mon problème est de choisir l'entrée stochastique du filtre de modèle. Je suppose qu'il y a quelque chose de mieux que le bruit blanc. La périodicité (14 périodes par 0,02 seconde) m'amène à penser qu'un train d'impulsions avec la même période conviendrait.

Si oui, comment choisirais-je l'amplitude et comment trouverais-je la périodicité? Les estimations ACF et PSD sont assez bruyantes. Suis-je même sur la bonne voie?

entrez la description de l'image ici


1
Pour info, j'ai fini par mettre à l'échelle le train d'impulsions de telle sorte que son énergie de signal (mesurée dans le domaine temporel) soit la même que celle du signal enregistré.
Andreas

Réponses:


5

Un estimateur de hauteur est couramment utilisé pour trouver la périodicité vocale. Les estimateurs de pas courants incluent l'analyse cepstrum / cepstral, le spectre de produit harmonique et les algorithmes composites, tels que YAAPT .


Merci. Comment choisir l'amplitude d'impulsion?
Andreas

4

Je pense que votre meilleur pari est le détecteur de hauteur "YIN", décrit dans cet article: http://audition.ens.fr/adc/pdf/2002_JASA_YIN.pdf . C'est assez simple et fonctionne très bien. Ils le présentent par étapes, ou améliorations par rapport à l'idée précédente, et même la simple mise en œuvre des premières étapes devrait être suffisante.

La plupart des détecteurs de tangage actuellement utilisés sont liés à l'autocorrélation. Le plus gros problème avec la plupart des algorithmes de détection de hauteur est celui des erreurs d'octave - soit la détection d'une hauteur inférieure ou supérieure. Il est intéressant que vous disiez que votre fonction d'autocorrélation est bruyante. Vous devriez voir un tas de bruit, avec des pics à des multiples entiers et des diviseurs de la fréquence fondamentale. Espérons que le décalage temporel correspondant à la fréquence fondamentale a la plus grande valeur, mais souvent ce sera à une sous-octave (parce que les signaux ne sont pas parfaitement périodiques), ou à une octave plus élevée (à cause d'un fort formant provoquant l'un des plus élevés harmoniques pour être vraiment fort). Je recommanderais une taille de fenêtre qui est à peu près aussi grande que deux de vos périodes de pas les plus basses possibles.

Ce signal semble également avoir une composante très basse fréquence - la parole ne monte et ne descend généralement pas comme ça. Je pourrais recommander de le traiter avec, disons, un filtre passe-haut de 24 dB / oct à environ 50 Hz.


Merci à vous deux, je vais vérifier ces détecteurs de hauteur. Lorsque la période est estimée, comment puis-je trouver quelle amplitude est appropriée pour le train d'impulsions?
Andreas
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.