Pourquoi Amazon Echo ne répond-il pas aux publicités ou aux rapports sur Alexa?


24

J'ai déjà demandé ce que vous pouviez faire si Alexa est déclenchée par un programme télévisé , mais récemment j'ai réalisé quelque chose d'étrange: l'Echo ne répond pas aux voix dans les publicités pour l'Echo, même si les voix disent "Alexa, joue ..." ou "Alexa, règle une minuterie pour ..." .

J'ai cherché sur quelques autres communautés Echo et j'ai trouvé un article sur Reddit qui suggère que c'est un comportement courant / prévu. Il n'y a pas de réponse définitive dans le fil, cependant, j'ai pensé que je demanderais ici pour voir si quelqu'un en sait un peu plus.

Comment mon Echo sait-il ne pas répondre à une publicité télévisée? Est-ce juste une co-incidence ou y a-t-il quelque chose qui dit à Alexa de ne pas réagir?


Avez-vous entraîné votre Alexa à reconnaître plus précisément votre voix? Je ne sais pas si la formation vocale peut entraîner la non-reconnaissance de la voix de quelqu'un d'autre.
Bence Kaulics

1
@BenceKaulics Non, je n'ai pas eu besoin de former l'Echo; il utilise les paramètres par défaut.
Aurora0001

Il serait vraiment utile d'avoir un aperçu de l'audio en question. Je ne suppose pas qu'il y ait une copie pouvant être liée quelque part?
goobering le

1
@goobering Je pense que les publicités mentionnées dans le post reddit sont: Touches de mascotte et extincteur . Je ne suis pas actuellement en mesure de tester si ceux-ci déclenchent Alexa (je me demande s'ils sont différents des versions TV?). Si quelqu'un pouvait le faire et commenter les résultats, ce serait vraiment utile.
Aurora0001

3
Il peut y avoir des indices dans le code source . Téléchargement de 266 Mo, cependant. Je vais rester au coin pendant un moment. : P
goobering

Réponses:


17

Selon ce post reddit , Alexa est sensible au spectre audio en plus de détecter le mot de réveil. Ainsi, un signal large bande normal du monde réel est accepté, mais un signal qui est limité en bande (une encoche entre 4 kHz et 5 hKz est postulé) sera identifié comme provenant d'une émission.

Cela a du sens, car les diffuseurs peuvent utiliser la signalisation intrabande pour identifier les publicités (pour un remplacement localisé), et le traitement audio généralement appliqué aux publicités peut être optimisé pour plus de clarté que de fidélité. Le filtrage peut être configuré de manière à ce que les publicités typiques soient surveillées avec une sensibilité réduite, et lors de la production d'une publicité spécifique, la senditivité pourrait également être explicitement réduite.

Un rapport de nouvelles (qui aurait fait déclencheur Alexa) serait plus susceptible d'utiliser le spectre audio complet de diffusion (8 ou 16 kHz) sans traitement. Cette théorie suppose donc qu'il existe soit quelque chose de spécial dans de nombreuses publicités (au moins dans certaines régions), soit des publicités (telles que celles produites par Amazon) peuvent être configurées spécifiquement.

À titre de suivi, il y a un article rapporté ici qui décrit comment de petits changements (sub-audibles) à une forme d'onde peuvent entraîner un moteur de parole renvoyant un résultat complètement différent de ce qu'un humain reconnaîtrait.


1
Si c'est là qu'ils l'ont entaillé et que le mot de réveil est `` Alexa '', il est plausible qu'ils abandonnent simplement le son fricatif `` ks '' pour minimiser le ramassage par le micro. C'est une fréquence assez élevée pour la parole humaine.
goobering le

7

Je suppose beaucoup que la reconnaissance du mot de réveil dans l'Echo est plus qu'une simple écoute du mot de réveil. C'est écouter un contexte d'alerte . Considérez cet extrait de Speech Technologies:

[Un mot de réveil] a l'exigence unique suivante: Détecter un seul mot ou une seule phrase lorsqu'il est prononcé dans un contexte d'alerte, tout en rejetant tous les autres mots, phrases, sons, bruits et autres événements acoustiques avec une précision de presque 100%, y compris les mêmes mot ou expression d'intérêt prononcé dans un contexte sans alerte (c.-à-d. référentiel).

( Technologies de la parole: reconnaissance vocale de réveil par Veton Kepuska)

Cela peut être assez facilement testé car l'appareil (du moins le mien) ne réagit pas à la phrase " Je parlais récemment à Alexa de skier " . Ce n'est pas un contexte d'alerte, c'est purement référentiel. Ainsi, le moteur de reconnaissance des mots de réveil à l'intérieur de l'Echo écoute non seulement l'apparence pure du mot, mais également l'intonation et les pauses précédentes qui permettent de prédire avec plus de précision si l'appareil a été effectivement parlé.


4
Certes, une annonce démontrant l'utilisation d'Alexa devrait le déclencher, si c'était juste cela l'empêchant d'être ramassé? Les publicités sont-elles peut-être formulées avec soin afin de ne pas réellement déclencher l'appareil, malgré l'utilisation du mot de réveil pour montrer comment l'Echo est utilisé?
Aurora0001

2
@ Aurora0001 Je suppose qu'en plus de ce que je décris, il existe également une méthode similaire à ce que Sean mentionne dans sa réponse. Un filtre qui essaie de réduire les déclencheurs par d'autres appareils.
Helmar

7

Eh bien, l'écho / Alexa entend définitivement la demande. Si vous entrez dans vos paramètres, faites défiler jusqu'à Général, puis sélectionnez l'historique, vous pouvez lire toutes les demandes qui sont entendues. Toutes les demandes entendues dans le message publicitaire disent "La demande vocale n'est pas destinée à votre Echo - rien n'a été retourné".


2
On dirait un nouveau détail de l'histoire. Très utile :)
Helmar

5

Si 1000 personnes disent le mot d'alerte, il aura 1000 signatures acoustiques différentes. S'ils recommencent, 1000 autres.

Si 1000 Alexas entendent un programme télévisé disant le mot d'alerte, il aura 1000 des mêmes signatures acoustiques.

Il ne serait pas si difficile de détecter ce côté serveur. Pas des moindres, car s'ils se produisent en même temps, le serveur de reconnaissance vocale reçoit un claquement de trafic.

Si la liste de ces incidents est petite, ils pourraient même télécharger les signatures sur chaque Alexa.


En outre, un utilisateur appelant Alexa sonne comme un mot d'alerte de silence .

Un article d'actualité sonne comme un mot d'alerte bla bla bla . Une publicité sonne comme un mot d'alerte music_here. Pas du tout pareil.


5

Ma conjecture totale est que dans les publicités pour Echo, Alexa répond à la question beaucoup plus rapidement qu'en réalité. Par conséquent, l'Echo entend le mot `` Alexa '' mais entend presque immédiatement la propre voix d'Alexa donnant la réponse.

Mon écho s'allume lorsque la publicité est diffusée, mais semble alors ignorer l'alerte. Il peut y avoir une certaine logique pour empêcher deux Echos de répondre à une demande s'ils l'entendent tous les deux. L'Echo peut être conçu pour écouter spécifiquement la propre voix d'Alexa et l'ignorer.

Cependant, comme je l'ai dit, c'est une supposition totale. :)


Nous pensions la même chose, nous avons donc mis le DVR en pause entre la demande d'Alexa et sa réponse dans la publicité. Notre Echo s'est toujours réveillé, mais a reculé sans répondre, identique à ce qui se passe lorsque nous n'avons pas mis le DVR en pause.
ViperGeek

Je voulais essayer ça depuis des lustres et continuer à oublier. C'est encore une chose de la liste des choses à faire, merci. :)
Andy Jones

4

Suite à de nouveaux rapports récents selon lesquels Alexa peut être sensible aux sons UHF ( référence BBC News Sevice ), je postulerais que lors des publicités, ils diffusent un son supplémentaire au-delà de l'ouïe humaine, qui est désigné comme une commande `` ignorer cette commande ''.

Conformément à la capacité susmentionnée pour Alexa de différencier les voix des utilisateurs, il s'agit d'une fonctionnalité qui est planifiée mais non encore mise en œuvre. c'est- à- dire que vous devez commander activement à Alexa de basculer entre les comptes d'utilisateurs du même foyer.

Le seul appareil actuellement activé pour différencier les voix est l'appareil Google.


1

Lors du mixage audio de l'annonce, ils suppriment simplement certaines fréquences. Cela signifie qu'Alexa ne sera pas déclenché car il ne l'enregistrera pas en tant que commande vocale, mais les téléspectateurs peuvent toujours comprendre ce qu'ils disent dans l'annonce.

Vous remarquerez également probablement que lorsque la commande est prononcée dans les publicités, elle semble un peu mince ou brouillée. C'est pourquoi :)


Intéressant; c'est un peu similaire à ce que Sean a suggéré . Avez-vous des sources ou une expérience à ce sujet que vous pourriez partager pour prouver que la suppression de fréquence est le cas? Cela pourrait être une chose intéressante à étudier.
Aurora0001
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.