La réponse simple est qu'un système de réponse en fréquence plat construit avec des amplificateurs opérationnels pour corriger la réponse du conducteur aura nécessairement une réponse de phase très plate dans la bande passante. Cette non-planéité signifie que les fréquences des composants des sons transitoires sont retardées de manière inégale, ce qui entraîne une distorsion transitoire subtile qui empêche la bonne reconnaissance des composants sonores, ce qui signifie que moins de sons distincts peuvent être discernés.
Par conséquent, cela semble terrible. Comme si tout le son venait d'une boule floue centrée exactement entre les oreilles.
Le problème HRTF dans la réponse ci-dessus n'est qu'une partie de cela - l'autre est qu'un circuit de domaine analogique réalisable ne peut avoir qu'une réponse temporelle causale, et pour corriger correctement le pilote, il faut un filtre causal.
Cela peut être approximé numériquement avec un filtre de réponse aux impulsions finies adapté au pilote, mais cela nécessite un petit délai qui est suffisant pour rendre les films très désordonnés.
Et il semble toujours que cela vient de l'intérieur de votre tête, à moins que le HRTF ne soit également ajouté.
Donc, ce n'est pas si simple après tout.
Pour rendre un système "transparent", vous n'avez pas simplement besoin d'une bande passante plate sur la plage d'audition humaine, vous avez également besoin d'une phase linéaire également - un tracé de retard de groupe plat - et il existe des preuves suggérant que cette phase linéaire a besoin pour continuer jusqu'à une fréquence étonnamment élevée afin que les signaux directionnels ne soient pas perdus.
Ceci est facile à vérifier par expérience: ouvrez un .wav d'une musique que vous connaissez dans un éditeur de fichiers audio comme Audacity ou snd, et supprimez un seul échantillon de 44100 Hz d'un seul canal et réalignez l'autre canal de sorte que le premier L'échantillon se produit maintenant avec le second canal édité et le reproduit.
Vous entendrez une différence très sensible, même si la différence est un retard de seulement 1 / 44100e de seconde.
Considérez ceci: le son va environ 340 mm / ms, donc à 20 kHz, c'est une erreur de temps de plus moins un retard d'échantillonnage, ou 50 microsecondes. C'est 17 mm de voyage sonore, mais vous pouvez entendre la différence avec les 22,67 microsecondes manquantes, ce qui ne représente que 7,7 mm de voyage sonore.
La coupure absolue de l'audition humaine est généralement considérée comme étant d'environ 20 kHz, alors que se passe-t-il?
La réponse est que les tests auditifs sont effectués avec des tonalités de test qui consistent principalement en une seule fréquence à la fois, pendant une période assez longue à chaque partie du test. Mais nos oreilles internes sont constituées d'une structure physique qui effectue une sorte de FFT sur le son tout en lui exposant des neurones, de sorte que les neurones à différentes positions correspondent à différentes fréquences.
Les neurones individuels ne peuvent se ré-allumer que si rapidement, donc dans certains cas, quelques-uns sont utilisés l'un après l'autre pour suivre ... mais cela ne fonctionne que jusqu'à environ 4 kHz environ ... Ce qui est juste là où notre la perception du ton se termine. Pourtant, il n'y a rien dans le cerveau pour arrêter le déclenchement d'un neurone à chaque fois qu'il se sent si incliné, alors quelle est la fréquence la plus élevée qui compte?
Le fait est que la minuscule différence de phase entre les oreilles est perceptible, mais plutôt que de changer la façon dont nous identifions les sons (par leur structure spectrographique), cela affecte la façon dont nous percevons leur direction. (que le HRTF change également!) Même s'il semble qu'il devrait être "retiré" de notre gamme d'audition.
La réponse est que le point -3dB ou même -10dB est encore trop bas - vous devez aller à environ le point -80 dB pour tout obtenir. Et si vous voulez gérer un son fort aussi bien que silencieux, vous devez être bon jusqu'à -100 dB. Ce qu'un test d'écoute à une seule tonalité ne verra probablement jamais, en grande partie parce que ces fréquences ne "comptent" que lorsqu'elles arrivent en phase avec leurs autres harmoniques dans le cadre d'un son transitoire aigu - leur énergie dans ce cas s'additionne, atteignant suffisamment une concentration pour déclencher une réponse neuronale, même si en tant que composantes de fréquence individuelles isolées, elles peuvent être trop petites pour être comptées.
Un autre problème est que nous sommes constamment bombardés par de nombreuses sources de bruit ultrasonique, probablement en grande partie par des neurones cassés dans nos propres oreilles internes, endommagés par un niveau sonore excessif à un moment antérieur de notre vie. Il serait difficile de discerner la tonalité de sortie isolée d'un test d'écoute sur un bruit "local" aussi fort!
Cela nécessite donc une conception de système "transparente" pour utiliser une fréquence passe-bas beaucoup plus élevée afin qu'il y ait de la place pour que le passe-bas humain disparaisse (avec sa propre modulation de phase à laquelle votre cerveau est déjà "calibré") avant le système la modulation de phase commence à changer la forme des transitoires et à les déplacer dans le temps de sorte que le cerveau ne puisse plus reconnaître à quel son il appartient.
Avec les écouteurs, il est beaucoup plus facile de les construire simplement pour avoir un seul pilote à large bande avec une bande passante suffisante, et de compter sur la réponse en fréquence naturelle très élevée du pilote `` non corrigé '' pour éviter la distorsion temporelle. Cela fonctionne beaucoup mieux avec les écouteurs, car la petite masse du conducteur se prête bien à cette condition.
La raison d'avoir besoin de la linéarité de phase est profondément enracinée dans la dualité domaine-fréquence-domaine temporel, tout comme la raison pour laquelle vous ne pouvez pas construire un filtre à retard nul qui puisse "parfaitement corriger" n'importe quel système physique réel.
La raison pour laquelle c'est la «linéarité de phase» qui importe et non la «planéité de phase» est que la pente globale de la courbe de phase n'a pas d'importance - par dualité, toute pente de phase équivaut à un retard constant.
L'oreille externe de chacun a une forme différente, et donc une fonction de transfert différente se produisant à des fréquences légèrement différentes. Votre cerveau est habitué à ce qu'il a, avec ses propres résonances distinctes. Si vous utilisez le mauvais, cela sonnera juste pire, car les corrections que votre cerveau a l'habitude de faire ne correspondront plus à celles de la fonction de transfert des écouteurs, et vous aurez quelque chose de pire qu'un manque d'annulation de résonance - vous aurez deux fois plus de pôles / zéros déséquilibrés encombrant votre retard de phase et réduisant complètement les retards de groupe et les relations temporelles d'arrivée des composants.
Cela ne semblera pas très clair et vous ne pourrez pas distinguer l'imagerie spatiale encodée par l'enregistrement.
Si vous faites un test d'écoute aveugle A / B, tout le monde sélectionnera les écouteurs non corrigés qui, au moins, ne modifient pas tellement les retards de groupe, afin que leur cerveau puisse s'y accorder.
Et c'est vraiment pourquoi les écouteurs actifs n'essaient pas d'égaliser. C'est trop difficile de bien faire les choses.
C'est aussi la raison pour laquelle la correction numérique de la pièce est le créneau: parce que l'utiliser correctement nécessite des mesures fréquentes, difficiles / impossibles à réaliser en direct, et que les consommateurs ne veulent généralement pas connaître.
Principalement parce que les résonances acoustiques dans la pièce en cours de correction, qui font principalement partie de la réponse des basses, continuent de se déplacer légèrement à mesure que la pression de l'air, la température et l'humidité changent toutes, changeant ainsi légèrement la vitesse du son, changeant ainsi les résonances loin de ce qu'elles étaient lorsque la mesure a été prise.