Pourquoi l'audio du téléphone est-il échantillonné à 8 kHz?


8

Quand avons-nous décidé d'échantillonner le téléphone à kHz? Cela a-t-il toujours été le cas? Pourquoi avons-nous fait ça? Est-ce parce que des débits binaires plus élevés ne peuvent pas être transférés aussi rapidement? Et ces raisons comptent-elles encore? Sinon, pourquoi n'y a-t-il pas encore une nouvelle norme? Est-il vrai que kHz est la fréquence d'échantillonnage la plus basse possible pour transférer une parole compréhensible?88

J'essaie de trouver des sources pour cela, mais il ne semble pas y avoir beaucoup d'informations à ce sujet.


2
Cela n'a pas toujours été le cas, car les lignes téléphoniques étaient totalement analogiques.
Simon B

2
en fait, ils pourraient encore être totalement analogiques pour les appels locaux au sein du même commutateur. mais je ne sais pas. mais même lorsqu'ils étaient analogiques, il y avait des limites de bande passante et la "qualité vocale" était le critère suffisant.
robert bristow-johnson

Juste pour que nous ne soyons pas confus ... et un taux de rafraîchissement en bauds et un débit binaire différents ne sont pas les mêmes ... Le baud est "Bits at Unit Density". Baud est le débit de signalisation, Bits est le débit d'information. donc si votre taux de BAUD est de 1200 bauds et que vous passez 4 bits par cycle d'horloge, vous exécutez 4800 bits par seconde .. Nous avions des modems DSP qui étaient capables de passer 150Kb / s sur une ligne téléphonique analogique mais la technique de modulation était très sophistiquée et utilisé n'importe où de 256 à 512 tonalités audio pour déplacer les données dans le tuyau .. ainsi que pour égaliser la ligne et supprimer le retard .. Je me souviens avoir vu des modems qui
Keith

Ah, je l'ai trouvé ... US Robotics a fabriqué un modem 2400 BAUD appelé Sportster HST v92. il était de 2400 bauds mais passait 21 600 bits par seconde. Il y avait donc 2400 modems BAUD sur le marché au milieu des années 90
Keith

Réponses:


4

Si quelqu'un veut creuser, je pense qu'il découvrira qu'avant que Bell Telephone ne commence à multiplexer les lignes vocales, il a fait beaucoup de recherches sur le contenu en fréquence de la voix humaine. À l'origine, ils ont utilisé des groupes de test pour développer l'unité audio bel et la répartition de la puissance de la voix ainsi que la sensibilité de l'oreille humaine à diverses fréquences. Ils ont développé une caractéristique passe-bande qui a culminé autour de 2,1 KHz et est descendue en dessous de 300 et plus de 3000 HZ. Cela a donné une bonne voix humaine quand cela est fait correctement. Tout cela était analogique.
La radio AM a étendu cela à 5 KHz pour inclure de la musique qui était acceptable pour la plupart des gens quand nous étions jeunes et que nous avions de bonnes oreilles. Les transformateurs de retour de télévision ont été conçus pour fonctionner à ~ 17,5 KHz car il y avait un nombre magique pour la reproduction des imageset la plupart des gens ne pouvaient pas entendre le gémissement . La radio à bande latérale unique a été commercialisée dans les années 1960 et avait besoin de fréquences de coupure très nettes. J'ai utilisé des radios avec des filtres à 2,1 et 3,1 KHz. 2.1 avait certaines caractéristiques de Donald Duck. 3.1 sonnait bien, encore avec de jeunes oreilles. La bande passante audio a été augmentée à 20 KHZ ou mieux avec la FM car les fréquences porteuses plus élevées pourraient gérer une bande passante plus élevée pour une meilleure reproduction de la musique . Empilez des xylophones ou des cloches ou d'autres instruments aigus et ils peuvent obtenir suffisamment d'énergie harmonique dans les fréquences plus élevées. OTOH, comme l’était l’État, la plupart des gens ne peuvent pas l’entendre.

L'essentiel est que quiconque prétend avoir besoin d'une bande passante de 20 KHz pour la voix n'y prête pas attention. 3 KHz le feront, 5 vous donnera une marge. Si cela ne sonne pas correctement, alors autre chose que la bande passante est le problème.

Lorsque la signalisation numérique a été développée, les gens qui savent ont compris que, quelle que soit l'apparence d'une forme d'onde, elle pouvait être décomposée en un ensemble d'ondes sinusoïdales. Le mélange harmonique de ces ondes a produit le motif en pointe typique de la voix ou de la musique. Enfin, Nyquist a effectué des recherches sur le taux d'échantillonnage numérique nécessaire pour reproduire une onde sinusoïdale à une fréquence donnée. Il s'avère qu'il faut 2 échantillons pour faire une onde sinusoïdale, donc la fréquence la plus élevée qui sera reproduite est la moitié de la fréquence d'échantillonnage. Vous voulez 5 KHz d'audio puis échantillonner à 10 KHz. Très bien pour la voix. Vous voulez une musique plus fidèle que la plupart des gens peuvent entendre, puis échantillonner à 40 KHz ou plus pour obtenir 20+ KHz.

Un tidbit de plus est l'échantillonnage par rapport au débit binaire. Si vous échantillonnez à une fréquence donnée, multipliez cela par la longueur du mot pour obtenir le débit binaire minimum nécessaire pour produire le signal souhaité. Réduisez le débit binaire et la taille du mot échantillon sera réduite pour correspondre au nouveau débit binaire à un taux d'échantillonnage donné. C'est tout l'encodage "sans perte". Tout cela provient de la mémoire et essaie de trouver les données actuelles. Il est là si quelqu'un cherche des citations. Je ne vais pas déranger car je vieillis trop pour m'en soucier. Je me suis juste lassé de patauger dans de nombreux problèmes mythiques évidents lorsque je me suis intéressé à faire une capture audio.


5

On pensait qu'il offrait un bon compromis entre la qualité et la bande passante. En fait, un seul signal vocal occupe 8 kHz, et non 8 kbps, de bande passante. Chaque échantillon est quantifié en 8 bits, ce qui donne un taux de 64 kbps qui est utilisé universellement.

Lectures complémentaires:


3
Lorsque le signal vocal est échantillonné à 8 kHz, sa bande passante est supposée être inférieure à 4 kHz et non à 8 kHz. De plus, le débit binaire PCM 64 kbps résultant peut être réduit par les techniques DPCM et ADPCM jusqu'à 32 kbps ou 16 kbps chaque fois que l'efficacité est requise.
Fat32

C'est vrai. Non seulement cela, il est garanti d'occuper moins de 4 kHz grâce au filtrage passe-bas. Sinon, l'aliasing se produit.
Emre

alors je suppose que vous devriez revoir votre réponse en disant "En fait, un seul signal vocal occupe 8 kHz, et non 8 kbps, de bande passante". Un signal vocal peut occuper tout le spectre de 20 à 20 kHz, mais seuls les 4 premiers kHz sont pris en transmission.
Fat32

Je pense que vous vouliez dire que l'oreille humaine peut discerner les fréquences dans cette gamme? C'est un problème différent.
Emre

2

Une autre raison est qu'avant la transmission du signal numérique, l'audio du téléphone était modulé en analogique dans un canal à bande étroite afin que plusieurs appels téléphoniques puissent être envoyés sur une seule liaison analogique (relais RF et micro-ondes, etc.). être d'abord filtré passe-bas pour réduire la bande passante requise pour chaque canal de manière à regrouper le plus grand nombre de canaux sur un canal analogique (mais même alors, un mauvais jour, on pouvait entendre certains des appels téléphoniques adjacents en arrière-plan bruit). Étant donné que les gens se sont habitués aux appels longue distance sans fréquence supérieure à 3,5 kHz environ, cette bande passante est devenue commercialement acceptable même pour les appels locaux.

Cependant, des largeurs de bande encore plus étroites ont été utilisées pour les premières communications d'exploration spatiale, donc 3,5 kHz peuvent ne pas être le minimum pour une parole compréhensible.


1

Pour dissiper beaucoup d'idées fausses.

Tout d'abord, il n'y a jamais eu de modem «baud» 56k. Le Baud concerne le changement d'état et a été maximisé à 1200 bauds. Tout ce qui allait au-delà nécessitait un encodage plus sophistiqué.

Deuxièmement, l'ouïe humaine perçoit non seulement les tons fondamentaux, mais aussi de nombreux ordres de contenu harmonique bien au-dessus et au-delà du fondamental. Lorsque ce contenu harmonique est supprimé, le son est moins naturel et agréable. Une résolution audio supérieure à 8 kHz est à la fois plus intelligible et plus agréable à l'oreille.

Troisièmement, Nyquist travaille dans un domaine temporel fixe. Si vous commencez à échantillonner au moment exact d'un pic ou d'une dépression, vous n'avez besoin que de 2x la fréquence d'échantillonnage par rapport à la fréquence. Cependant, dans le monde réel, vos points d'échantillonnage peuvent se produire à n'importe quel décalage aléatoire dans le temps par rapport au pic ou au creux, ce qui nécessite donc un taux d'échantillonnage plus élevé. Par exemple, si vous échantillonnez une onde sinusoïdale et que votre moment d'échantillonnage se produit à un décalage précis de 90 degrés par rapport au début de l'onde, vos données suggéreront une ligne droite plutôt qu'une onde. Pour les tons fondamentaux, cela est essentiel. Pour le contenu harmonique, c'est plus agréable à avoir, avec des rendements décroissants près de l'extrémité supérieure de la plage audible. Nyquist appliqué au traitement audio est l'un des théorèmes les plus mal interprétés.


Avez-vous une référence pour l'affirmation selon laquelle aucun modem ne dépasse 1200 bauds? Je crois que la réclamation est incorrecte. De plus, pour ce que ça vaut, le paragraphe sur l'échantillonnage est faux. Lors de l'échantillonnage d'une onde sinusoïdale, toute fréquence d'échantillonnage supérieure à deux fois la fréquence du sinus est suffisante, quelle que soit la phase.
MBaz

0

Comme d'autres l'ont dit, le 4 kHz est standard, car c'est naturellement que la voix humaine est source1 source2 . J'ai trouvé ce un article qui mentionne les fréquences fondamentales sont beaucoup plus faibles 85Hz-300Hz article . Que cela fonctionne ou non dans la pratique, je ne peux pas le dire avec certitude. mais ça vaut le coup


0

Le système téléphonique analogique avait un filtre mural en brique à 3,9 KHz. Cela a transmis toutes les informations nécessaires pour une parole intelligible et a permis le compactage de la bande passante. De nombreuses personnes ont subi un lavage de cerveau dans leur réflexion sur les bandes passantes nécessaires. Des bandes passantes de 20 à 20 000 Hz sont idéales pour la musique, mais totalement inutiles pour reproduire la parole humaine.

Quelqu'un pourrait-il demander à Nyquist comment nous avons envoyé des signaux de télécopie de 56 kBauds sur des lignes analogiques avec des filtres muraux en brique de 3,9 kHz. Quelqu'un se souvient-il des télécopieurs?

La note la plus élevée sur un piano est 4186 Hz. La gamme de fréquences des voix humaines est inférieure à environ 1000 Hz. Le do du milieu sur un piano est d'environ 262 Hz, juste pour mettre des choses en perspective.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.