Si quelqu'un veut creuser, je pense qu'il découvrira qu'avant que Bell Telephone ne commence à multiplexer les lignes vocales, il a fait beaucoup de recherches sur le contenu en fréquence de la voix humaine. À l'origine, ils ont utilisé des groupes de test pour développer l'unité audio bel et la répartition de la puissance de la voix ainsi que la sensibilité de l'oreille humaine à diverses fréquences. Ils ont développé une caractéristique passe-bande qui a culminé autour de 2,1 KHz et est descendue en dessous de 300 et plus de 3000 HZ. Cela a donné une bonne voix humaine quand cela est fait correctement. Tout cela était analogique.
La radio AM a étendu cela à 5 KHz pour inclure de la musique qui était acceptable pour la plupart des gens quand nous étions jeunes et que nous avions de bonnes oreilles. Les transformateurs de retour de télévision ont été conçus pour fonctionner à ~ 17,5 KHz car il y avait un nombre magique pour la reproduction des imageset la plupart des gens ne pouvaient pas entendre le gémissement . La radio à bande latérale unique a été commercialisée dans les années 1960 et avait besoin de fréquences de coupure très nettes. J'ai utilisé des radios avec des filtres à 2,1 et 3,1 KHz. 2.1 avait certaines caractéristiques de Donald Duck. 3.1 sonnait bien, encore avec de jeunes oreilles. La bande passante audio a été augmentée à 20 KHZ ou mieux avec la FM car les fréquences porteuses plus élevées pourraient gérer une bande passante plus élevée pour une meilleure reproduction de la musique . Empilez des xylophones ou des cloches ou d'autres instruments aigus et ils peuvent obtenir suffisamment d'énergie harmonique dans les fréquences plus élevées. OTOH, comme l’était l’État, la plupart des gens ne peuvent pas l’entendre.
L'essentiel est que quiconque prétend avoir besoin d'une bande passante de 20 KHz pour la voix n'y prête pas attention. 3 KHz le feront, 5 vous donnera une marge. Si cela ne sonne pas correctement, alors autre chose que la bande passante est le problème.
Lorsque la signalisation numérique a été développée, les gens qui savent ont compris que, quelle que soit l'apparence d'une forme d'onde, elle pouvait être décomposée en un ensemble d'ondes sinusoïdales. Le mélange harmonique de ces ondes a produit le motif en pointe typique de la voix ou de la musique. Enfin, Nyquist a effectué des recherches sur le taux d'échantillonnage numérique nécessaire pour reproduire une onde sinusoïdale à une fréquence donnée. Il s'avère qu'il faut 2 échantillons pour faire une onde sinusoïdale, donc la fréquence la plus élevée qui sera reproduite est la moitié de la fréquence d'échantillonnage. Vous voulez 5 KHz d'audio puis échantillonner à 10 KHz. Très bien pour la voix. Vous voulez une musique plus fidèle que la plupart des gens peuvent entendre, puis échantillonner à 40 KHz ou plus pour obtenir 20+ KHz.
Un tidbit de plus est l'échantillonnage par rapport au débit binaire. Si vous échantillonnez à une fréquence donnée, multipliez cela par la longueur du mot pour obtenir le débit binaire minimum nécessaire pour produire le signal souhaité. Réduisez le débit binaire et la taille du mot échantillon sera réduite pour correspondre au nouveau débit binaire à un taux d'échantillonnage donné. C'est tout l'encodage "sans perte". Tout cela provient de la mémoire et essaie de trouver les données actuelles. Il est là si quelqu'un cherche des citations. Je ne vais pas déranger car je vieillis trop pour m'en soucier. Je me suis juste lassé de patauger dans de nombreux problèmes mythiques évidents lorsque je me suis intéressé à faire une capture audio.