Je suggère une explication plus détaillée du codec mp3 .
La FFT est appliquée sur le signal du domaine temporel, donc en fait, elle n'utilise pas le résultat du MDCT. L'entrée des modèles psychoacoustiques se situe dans le domaine fréquentiel, d'où la FFT.
Il y a au moins plusieurs raisons de le faire. Le MDCT avec bancs de filtres fonctionne sur des segments très courts qui se chevauchent, maximisant la compression - la FFT utilise des échantillons plus longs et a une meilleure résolution spectrale. (Il est difficile de comparer puisque MDCT fonctionne comme une transformation à court terme; si cela est d'une grande importance pour vous, je devrai faire cette comparaison.)
Vous pouvez penser à la banque de filtres MDCT de la même manière que la quantification JPEG (c'est une très bonne analogie, car les deux utilisent DCT) et la FFT pour détecter les artefacts DCT à partir de la compression. Ensuite, le modèle psychoacoustique lisse les erreurs pour tomber sous le seuil "audible", mais pour ce faire, les échantillons de domaine temporel (ici PCM - Pulse Code Modulation ne suffit pas, car des changements de fréquence soudains sont entendus comme des fissures) - donc il utilise le domaine fréquentiel pour détecter de telles discontinuités puis les lisser dans le domaine temporel.
Deux choses ne sont pas expliquées dans les articles mais sont cruciales. Lorsque les différences PCM sont élevées, le haut-parleur a plus de distance à parcourir, il y a donc un retard et, selon les capacités du haut-parleur, cela peut simplement provoquer des vibrations supplémentaires, qui sont des bruits assez distincts du haut-parleur. La deuxième partie se situe entre les lignes, la version quantifiée du signal est retransformée pour la comparer avec le son d'origine et vérifier son écart.
Sur la base du type de masquage des fenêtres (basé sur la comparaison de la FFT et du MDCT inversé) est choisi pour mieux compenser les écarts audibles par rapport à l'original.
Les humains perçoivent mieux les changements de fréquence que les changements d'amplitude, de sorte que le filtre fonctionne dans les deux domaines à la fois, et le signal quantifié est inversé et le lissage est effectué dans le domaine temporel.
Oui, la résolution de MDCT avec des bancs de filtres n'est pas suffisante, mais c'est la partie où une bonne partie de la compression se produit, puis elle est masquée. Mais le modèle psychoacoustique a une résolution spectrale telle que donnée dans l'article.
Oui, la FFT est plus précise car elle obtient des échantillons plus longs, donc elle a une meilleure résolution entre les cases.
Note
(M) TCD est généralement mis en œuvre par l' exécution FFT, cela n'a donc rien à voir avec transform utilisé. La MDCT peut être considérée comme une transformée de Fourier à court terme modifiée en bits avec un filtre spécialement choisi (les bancs de filtres ressemblent à l'échelle de Mel pour la reconnaissance vocale).
La FFT est utilisée plus longtemps, fournit des algorithmes plus faciles pour le changement de hauteur et est plus facile à appliquer sur le son. (M) DCT minimise le nombre de composants, ce qui signifie que nous pouvons couper plus de données du résultat que de la FFT.
Mais dans le cas du son, ces composants ne sont pas stables, en coupant toujours, par exemple, deux bacs donneront une plus grande distorsion entre les images consécutives que de faire un fonctionnement équivalent sur les résultats FFT. Ainsi, la connexion entre la FFT et ce que nous entendons est plus grande que (M) DCT et ce que nous entendons, mais la compression disponible est l'inverse.