La transformation de Fourier appliquée à deux reprises lors du processus d'extraction de fonctionnalités s'explique par le fait que les fonctionnalités sont basées sur un concept appelé cepstrum. Cepstrum est un jeu de spectre de mots. L’idée est essentiellement de transformer un signal en domaine de fréquence par transformée de Fourier, puis d’effectuer une autre transformation comme si le spectre de fréquences était un signal.
Alors que le spectre de fréquences décrit l’amplitude et la phase de chaque bande de fréquences, le cepstre caractérise les variations entre les bandes de fréquences. Les caractéristiques dérivées du cepstre décrivent mieux la parole que les caractéristiques tirées directement du spectre de fréquences.
Il existe quelques définitions légèrement différentes. À l'origine, la transformée cepstrale était définie par la transformée de Fourier -> logarithme complexe -> la transformée de Fourier [1]. Une autre définition est transformée de Fourier -> logarithme complexe -> transformée de Fourier inverse [2]. La motivation de cette dernière définition réside dans sa capacité à séparer les signaux convolués (la parole humaine est souvent modélisée comme la convolution d’une excitation et d’un conduit vocal).
Un choix populaire qui s’est avéré efficace dans les systèmes de reconnaissance vocale est l’application d’une banque de filtres non linéaire dans le domaine fréquentiel (le mél binning dont vous parlez) [3]. L'algorithme particulier est défini comme étant une transformation de Fourier -> un carré de magnitude -> une banque de filtres mel -> un logarithme réel -> une transformation en cosinus discrète.
Ici, DCT peut être sélectionné comme seconde transformation, car pour une entrée à valeur réelle, la partie réelle de la DFT est une sorte de DCT. La préférence est donnée à DCT parce que la sortie est approximativement décorrélée. Les entités décorrélées peuvent être modélisées efficacement sous la forme d'une distribution gaussienne avec une matrice de covariance diagonale.
[1] Bogert, B., Healy, M. et Tukey, J. (1963). La série des séries chronologiques de Quefrency pour Echoes: Cepstrum, Pseudo-Autocovariance, Cross-Cepstrum et Saphe Cracking. Dans Actes du symposium sur l'analyse des séries chronologiques, p. 209-243.
[2] Oppenheim, A. et Schafer, R. (1968). Analyse homomorphique de la parole. Dans IEEE Transactions on Audio et Electroacoustics 16, p. 221-226.
[3] Davis, S. et Mermelstein, P. (1980). Comparaison des représentations paramétriques pour la reconnaissance de mots monosyllabique dans les phrases parlées en continu. Dans Transactions IEEE sur l'acoustique, le traitement de la parole et des signaux 28, p. 357-366.