Compte tenu de certains événements dans un jeu, quel est le délai maximum avant que le lecteur associe correctement l'audio à cet événement (sans percevoir un décalage)?
Compte tenu de certains événements dans un jeu, quel est le délai maximum avant que le lecteur associe correctement l'audio à cet événement (sans percevoir un décalage)?
Réponses:
Les résultats suivants sont calculés pour la synchronisation labiale, considérée comme "l'erreur de synchronisation a / v la plus notable" .
Wikipedia dit
Pour les applications de télévision, l’audio ne doit pas dépasser 15 millisecondes pour la vidéo et le retard ne doit pas dépasser 45 millisecondes. Pour un film, une synchronisation labiale acceptable est considérée comme ne dépassant pas 22 millisecondes dans les deux sens.
Le laboratoire de perception des médias et de l'acoustique dit
Les résultats de l'expérience ont montré que le seuil d'audio principal moyen pour la détection de synchronisation audio / vidéo était de 185,19 ms, avec un écart-type de 42,32 ms.
L'ATSC dit
À première vue, cela semble lâche: +90 ms à -185 ms en tant que «fenêtre d'acceptabilité»
et
- Indétectable de -100 ms à +25 ms
- Détectable à -125 ms et +45 ms
- Devient inacceptable à -185 ms et +90 ms
(- Son retardé, + Son avancé)
De conclure
Les résultats ne sont pas si éloignés l'un de l'autre. Il semble que le délai maximum acceptable se situe autour de 150 ms, soit 9 images à 60 images par seconde.
Si vous sentez qu'une explosion que vous voyez et entendez est un événement isolé, les tolérances décrites dans les autres réponses - pas plus de ~ 50 ms; certaines personnes peuvent être plus sensibles (par exemple les musiciens), alors je suggérerais de viser 30 ms ou pas plus de 2 images à 60fps.
Je pense que la distance perçue devrait affecter ces tolérances. Les gens s'attendent à ce que les sons de loin soient légèrement retardés, car dans la réalité, le son a une vue réduite d'environ 1 ms par pied. Ainsi, une explosion sur un jeu de carte RTS avec zoom arrière pourrait avoir une tolérance au retard du son supérieure à celle du joueur tirant avec son propre fusil dans un FPS.
Les cas spécialisés, tels que ressentir correctement un jeu de musique / rythme, peuvent nécessiter des tolérances beaucoup plus strictes, de 15 à 20 ms ou même moins - par exemple, si le joueur entend à la fois "l'action de saisie", comme chanter dans un micro Un instrument plastique, ainsi qu’un son généré par votre système pour le même événement, puis un décalage de 50 ms provoquera un mélange étrange des sons "original" et "joué".
De plus, gardez à l'esprit le décalage entre le début du fichier audio et "l'événement" à l'intérieur de ce fichier audio - dans de nombreux clips audio, "l'événement" ne sera pas juste sur le bord, vous pouvez avoir un son de foudre. frappe où la frappe frappe 200 ms après le début, ce qui serait évident pour tout le monde, et à peu près tous les fichiers sonores, même les frappes de batterie, auront un certain retard.
La vue et l’ouïe sont intimement liées dans la perception humaine, et si l’un d’eux bégaie relativement par rapport à l’autre, ce sera perceptible. Ce n'est pas acceptable si la plupart du temps, c'est très rapide, mais parfois, il y a un délai de 0,2 seconde pendant le chargement de quelque chose - les gens remarqueront de telles situations. C'est pourquoi l'audio est souvent maintenu sur un thread séparé, isolé des autres activités et ne reçoit que des notifications rapides sur les clips préchargés qui doivent être lus.
Toute situation dans laquelle un joueur provoque le son (jeux musicaux, armes à feu en mode FPS) nécessitera un délai très court, car le joueur a envoyé une impulsion pour que cela se produise à ce moment-là. de très petits délais. Les ingénieurs du son s'inquiètent des retards d'enregistrement inférieurs à 5 mS, ruinant le "groove"
Le Journal de l'American Academy of Audiology indique que les personnes (pas seulement les musiciens), lorsqu'elles écoutent leur propre voix en différé, sont conscientes de retards aussi courts que 3 ms et qu'un retard supérieur à 10 ms était désagréable dans 90% des cas.
Les humains utilisent le délai entre leurs oreilles pour obtenir des informations directionnelles et doivent donc être en mesure de traiter et d'extraire des informations de délais inférieurs à 1 ms.
Les 185,19 ms cités ci-dessus ne sont pas pertinents dans la mesure où ils font référence à une erreur sonore majeure et, en tout état de cause, à ce que les gens ont jugé acceptable de regarder un film de manière passive, sans participer activement à un match.
La réponse acceptée ici porte principalement sur la perception de la synchronisation audio lors du visionnage passif de vidéos. Dans ces cas, le public ne peut pas facilement savoir exactement quand l'audio doit être lu, sauf en assistant aux panneaux indicateurs de la vidéo. Cela signifie qu'ils ont une anticipation limitée du son.
Il existe deux cas importants dans les jeux où cette hypothèse d'anticipation basse ne tient pas:
Lorsque le joueur lui-même a provoqué le son (comme le fait remarquer SamB), dès lors qu'il a l'intention d'appuyer sur le bouton, il sait exactement quand il s'attend à entendre le son.
Lorsque le son est censé atterrir sur un battement périodique , comme dans les jeux musicaux ou tout ce qui a une minuterie / compteur à retardement, ce rythme permet au joueur d’anticiper le prochain son et d’avertir s’il joue hors du temps.
Mathieu Pavageau, dans cette conférence de GDC 2013, affirme que les joueurs peuvent percevoir des différences de précision de synchronisation supérieures à environ 5 ms , bien moins clémentes que ne le suggèrent les exemples tirés de la synchronisation labiale. Consultez les sections "Exemples de perception du temps" et "Exemple de jeux Ubisoft" pour l'entendre par vous-même. Vous pouvez entendre que le menu Rayman Origins ne sonne pas "latent" en tant que tel lorsqu'il est synchronisé en moins de 16 ms (image vidéo), mais lorsqu'il est synchronisé en moins de 5 ms, le son est nettement meilleur et plus serré.
Pavageau préconise l’utilisation d’un rappel audio de bas niveau pour obtenir ce type de précision de sous-image si vous voulez un gameplay rythmique captivant de cette variété.
Pour les jeux qui demandent à une personne de réagir aux signaux audio, chaque milliseconde de retard du son entraîne le même retard de la réponse de la personne. Une personne qui regarde simplement un film ou une cinématique ne remarquera peut-être pas trop si l'audio et la vidéo ne sont pas parfaitement synchronisés, mais il est souvent important et parfois essentiel que l'audio soit synchronisé avec ce que le lecteur est censé faire .
En théorie, tout ce qui dépasse les 50 ms peut être perceptible lorsqu'il est associé à des images. À 25 ms, vous pouvez commencer à entendre un son et son retard sous forme de deux sons séparés. Je vous conseillerais donc fortement de ne pas dépasser 50 ms. peut même rester à quelque chose de 5ms à 15ms ce serait vraiment sympa.
J'espère que cela t'aidera!