J'essaie de comparer 2 échantillons de parole et de les évaluer sur des similitudes. Pensez à quelqu'un qui essaie de répéter une phrase, puis compare ces 2 fichiers audio.
J'ai commencé par implémenter l'algorithme MFCC (http://en.wikipedia.org/wiki/Mel-frequency_cepstrum). Je calcule les MFCC des deux échantillons audio, ce qui me donne environ 500 images audio (à 10 ms chacune, avec un chevauchement de 30% comme le précédent) ayant environ 14 coefficients MFCC. Donc une matrice 500x14 pour chaque signal audio.
Ensuite, je fais l'approche naïve de simplement différencier les matrices. Cela ne donne pas de résultats très prometteurs. La moitié du temps lorsque je compare des échantillons audio complètement différents (où différentes phrases sont parlées), j'obtiens moins de différence que de comparer l'audio où j'essaie de répéter la même phrase! C'est clairement à l'envers et ne peut pas me donner un bon algorithme de notation.
Comment puis-je améliorer cela? Je pensais que les MFCC étaient une partie très importante du traitement de la parole, mais je dois clairement en faire plus.