J'ai lu dans certains endroits que la musique est principalement échantillonnée à 44,1 kHz alors que nous n'entendons que 20 kHz. Pourquoi c'est
J'ai lu dans certains endroits que la musique est principalement échantillonnée à 44,1 kHz alors que nous n'entendons que 20 kHz. Pourquoi c'est
Réponses:
Notez que la justification est publiée dans de nombreux endroits: Wikipedia: Pourquoi 44,1 kHz?
Sony a choisi 44.100 car il est le produit des carrés des quatre premiers nombres premiers. Cela le rend divisible par de nombreux autres nombres entiers , ce qui est une propriété utile dans l'échantillonnage numérique.
44100 = 2^2 * 3^2 * 5^2 * 7^2
Comme vous l'avez remarqué, le 44100 est également juste au-dessus de la limite d'audience humaine doublée. La partie juste au-dessus donne aux filtres une marge de manœuvre, les rendant ainsi moins chers (moins de puces rejetées).
Comme le souligne Russell dans les commentaires, le fait que l’ aspect divisible par de nombreux autres nombres entiers ait un avantage immédiat au moment où le taux d’échantillonnage a été choisi. Les premières données audio numériques étaient enregistrées sur des supports d’enregistrement vidéo analogiques existants qui prenaient en charge, selon la région, les spécifications vidéo NTSC ou PAL . NTSC et PAL avaient différents taux de lignes par champ et de champs par seconde, dont le LCM (avec les échantillons par ligne) est de 44100 .
Le taux de Nyquist est supérieur à deux fois la bande passante du signal en bande de base que vous souhaitez capturer sans ambiguïté (par exemple, le repliement de spectre).
Échantillonnez à un taux inférieur à deux fois 20kHz, et vous ne pourrez pas faire la différence entre les très hautes et très basses fréquences simplement en regardant les échantillons, en raison du repliement du spectre.
Ajouté: Notez que tout signal de longueur finie a un support infini dans le domaine de la fréquence, il n'est donc pas strictement limité à la bande. C'est encore une autre raison pour laquelle il est nécessaire d' échantillonner toute source audio non infinie un peu au-dessus de deux fois le spectre de fréquence le plus élevé (dans un signal en bande de base) afin d'éviter un repliement significatif (au-delà des seules raisons de l'atténuation de transition par filtre fini).
Fondamentalement, un double de la largeur de bande est une exigence commune pour l'échantillonnage du signal, donc kHz est un minimum. Ensuite, un peu plus est utile pour faire face au filtrage et à la quantification imparfaits . Les détails suivent.
Ce dont vous avez besoin en théorie n'est pas ce qui est requis dans la pratique. Cela va le long de la citation (attribuée à beaucoup):
En théorie, il n'y a pas de différence entre théorie et pratique. En pratique, il y en a.
Je ne suis pas un expert en audio, mais j’ai été formé par des techniciens d’échantillonnage / compression audio de haute qualité. Mes connaissances pourraient être rouillées, prenez-le avec prudence.
Premièrement, la théorie de l'échantillonnage standard fonctionne sous certaines hypothèses: systèmes linéaires et invariance temporelle. Ensuite, on sait théoriquement qu’il est possible d’échantillonner un phénomène à environ deux fois la largeur de bande (ou deux fois la fréquence maximale pour les signaux en bande de base) sans perte. Le "taux de Nyquist" est souvent défini comme suit:
le taux minimum auquel un signal peut être échantillonné sans introduire d'erreurs
C'est la partie analyse du "théorème d'échantillonnage". Le "peut être" est important. Il y a une partie synthèse: le signal continu " peut être reconstruit" de manière analogue en utilisant des sinus cardinaux. Ce n'est pas la seule technique, et elle ne prend pas en compte le préfiltrage passe-bas, non linéaire (comme la quantification, la saturation) et d'autres facteurs variant dans le temps.
L'audience humaine n'est pas un sujet simple. Il est admis que les humains entendent des fréquences comprises entre 20 Hz et 20 000 Hz. Mais des limites aussi précises en hertz ne sont pas un trait de la nature pour tous les humains. Une perte progressive de sensibilité aux fréquences plus élevées est fréquente avec l'âge. D'un autre côté:
Dans des conditions de laboratoire idéales, les humains peuvent entendre des sons aussi bas que 12 Hz et aussi élevés que 28 kHz, bien que le seuil augmente brusquement à 15 kHz chez l'adulte.
L'audience n'est pas linéaire: il existe des seuils d'audition et de souffrance . Ce n'est pas invariant dans le temps. Il y a des effets de masquage dans le temps et la fréquence.
Si la bande de fréquences allant de 20 Hz à 20 000 Hz est une plage commune et qu’une fréquence de 40 000 Hz devrait théoriquement suffire, un peu plus est nécessaire pour faire face à une distorsion supplémentaire. En règle générale, 10% de plus est acceptable ( largeur de bande du signal ) et 44 100 Hz le fait. Cela remonte à la fin des années 1970. Pourquoi n'utilise-t-on pas 44 000 Hz? Principalement à cause de normes, définies par la popularité des CD, dont la technologie est toujours basée sur un compromis. De plus, 44.100 est le produit de carrés de quatre premiers nombres premiers ( ), donc présente de petits facteurs bénéfiques pour les calculs (comme la FFT).
Ainsi, de à (et de multiples), nous avons un équilibre entre sécurité, quantification, utilisabilité, calculs et normes.
D'autres options existent: le format DAT, par exemple, a été publié avec un échantillonnage de 48 kHz, avec une conversion initialement difficile. 96 kHz est discuté en ce qui concerne la quantification (ou la profondeur de bits) dans Quelle fréquence d’échantillonnage et quelle profondeur dois-je utiliser? Ceci est un sujet controversé, voir 24 bits 48kHz vers 24 bits 96kHz . Vous pouvez par exemple vérifier les taux d'échantillonnage Audacity .
On a déjà répondu à la question de savoir pourquoi on utilise exactement 44,1 kHz - mais pour en revenir à l’aspect de votre question qui porte sur la limite de la perception humaine, la raison est assez simple.
La résolution dans le temps doit être suffisamment fine pour pouvoir générer toutes les formes d'onde possibles jusqu'à la limite perceptible. Selon le théorème d'échantillonnage , la résolution doit être telle que la fréquence d'échantillonnage est au moins deux fois supérieure à cette fréquence. Intuitivement, à la fréquence la plus élevée, vous avez besoin d'au moins 2 points pour représenter le maximum et le minimum de votre signal - ce qui donne cette onde carrée Ascii-art:
_ _
|_| |_
Afin de reproduire fidèlement un signal, plus le taux d'échantillonnage sera rapide, mieux ce sera. ~ 40 kHz a été choisi, car il s'agissait d'un taux d'échantillonnage faible pour lequel la plupart des gens ne peuvent pas faire la différence (reconstitué). Lorsque l'échantillonnage audio a été introduit, la mémoire et le stockage étaient coûteux et des taux d'échantillonnage plus élevés n'étaient pas possibles à moindre coût.
À deux fois la limite supérieure de l'audition humaine, deux échantillons par cycle constituent une reconstruction très médiocre, même si elle répond aux critères de Nyquist pour l'échantillonnage des signaux, un simple graphique représentant une onde sinusoïdale à deux échantillons par cycle vous indiquera la pauvreté de deux échantillons par cycle. en reproduisant une forme d'onde. Vous pouvez littéralement transformer une onde sinusoïdale en onde carrée; c'est une bonne chose à 20 kHz, personne ne peut le dire. Je parie qu'un chien pourrait bien.