Pourquoi un encodeur MP3 utilise-t-il une transformée de Fourier rapide avant d'appliquer le modèle psychoacoustique?

Karlheinz Brandenburg représente un encodeur MP3 comme celui-ci:

J'ai marqué la FFT car je ne sais pas trop pourquoi il est réellement nécessaire d'en effectuer une. Pourquoi le modèle psychoacoustique ne peut-il pas être appliqué aux soi-disant lignes après la transformée en cosinus discrète modifiée (MDCT) sans effectuer une FFT?

J'ai de la littérature ici, disant que la résolution de fréquence n'est pas assez précise. Cela signifie-t-il que la division du signal d'origine en 576 lignes (comme le font le banc de filtres et le MDCT) n'est pas suffisamment précise pour que le modèle psychoacoustique fonctionne correctement? La FFT est-elle plus précise?

algorithms data-compression fourier-transform

— Phonolog
source

Le banc de filtres et le canal MDCT sont la source d'erreur que le modèle psycho-acoustique essaie de minimiser, c'est-à-dire que le canal supérieur est avec perte. D'après les chiffres qui semblent à droite - 1024 composantes de fréquence dans le vrai signal par rapport à 576 dans le pipeline de compression.

— KWillets

Je suggère une explication plus détaillée du codec mp3 .

La FFT est appliquée sur le signal du domaine temporel, donc en fait, elle n'utilise pas le résultat du MDCT. L'entrée des modèles psychoacoustiques se situe dans le domaine fréquentiel, d'où la FFT.

Il y a au moins plusieurs raisons de le faire. Le MDCT avec bancs de filtres fonctionne sur des segments très courts qui se chevauchent, maximisant la compression - la FFT utilise des échantillons plus longs et a une meilleure résolution spectrale. (Il est difficile de comparer puisque MDCT fonctionne comme une transformation à court terme; si cela est d'une grande importance pour vous, je devrai faire cette comparaison.)

Vous pouvez penser à la banque de filtres MDCT de la même manière que la quantification JPEG (c'est une très bonne analogie, car les deux utilisent DCT) et la FFT pour détecter les artefacts DCT à partir de la compression. Ensuite, le modèle psychoacoustique lisse les erreurs pour tomber sous le seuil "audible", mais pour ce faire, les échantillons de domaine temporel (ici PCM - Pulse Code Modulation ne suffit pas, car des changements de fréquence soudains sont entendus comme des fissures) - donc il utilise le domaine fréquentiel pour détecter de telles discontinuités puis les lisser dans le domaine temporel.

Deux choses ne sont pas expliquées dans les articles mais sont cruciales. Lorsque les différences PCM sont élevées, le haut-parleur a plus de distance à parcourir, il y a donc un retard et, selon les capacités du haut-parleur, cela peut simplement provoquer des vibrations supplémentaires, qui sont des bruits assez distincts du haut-parleur. La deuxième partie se situe entre les lignes, la version quantifiée du signal est retransformée pour la comparer avec le son d'origine et vérifier son écart.

Sur la base du type de masquage des fenêtres (basé sur la comparaison de la FFT et du MDCT inversé) est choisi pour mieux compenser les écarts audibles par rapport à l'original.

Les humains perçoivent mieux les changements de fréquence que les changements d'amplitude, de sorte que le filtre fonctionne dans les deux domaines à la fois, et le signal quantifié est inversé et le lissage est effectué dans le domaine temporel.

Oui, la résolution de MDCT avec des bancs de filtres n'est pas suffisante, mais c'est la partie où une bonne partie de la compression se produit, puis elle est masquée. Mais le modèle psychoacoustique a une résolution spectrale telle que donnée dans l'article.

Oui, la FFT est plus précise car elle obtient des échantillons plus longs, donc elle a une meilleure résolution entre les cases.

Note
(M) TCD est généralement mis en œuvre par l' exécution FFT, cela n'a donc rien à voir avec transform utilisé. La MDCT peut être considérée comme une transformée de Fourier à court terme modifiée en bits avec un filtre spécialement choisi (les bancs de filtres ressemblent à l'échelle de Mel pour la reconnaissance vocale).

La FFT est utilisée plus longtemps, fournit des algorithmes plus faciles pour le changement de hauteur et est plus facile à appliquer sur le son. (M) DCT minimise le nombre de composants, ce qui signifie que nous pouvons couper plus de données du résultat que de la FFT.

Mais dans le cas du son, ces composants ne sont pas stables, en coupant toujours, par exemple, deux bacs donneront une plus grande distorsion entre les images consécutives que de faire un fonctionnement équivalent sur les résultats FFT. Ainsi, la connexion entre la FFT et ce que nous entendons est plus grande que (M) DCT et ce que nous entendons, mais la compression disponible est l'inverse.

— Mal
source