Quelles sont les senones dans un réseau neuronal profond?


9

Je lis cet article: traducteur skype où ils utilisent des CD-DNN-HMM (réseaux neuronaux profonds dépendants du contexte avec des modèles de Markov cachés). Je peux comprendre l'idée du projet et l'architecture qu'ils ont conçue mais je ne comprends pas ce que sont les senones . Je cherchais une définition mais je n'ai rien trouvé

—Nous proposons un nouveau modèle dépendant du contexte (CD) pour la reconnaissance vocale à grand vocabulaire (LVSR) qui exploite les avancées récentes dans l'utilisation des réseaux de croyances profondes pour la reconnaissance téléphonique. Nous décrivons un réseau de neurones profond pré-formé modèle de Markov caché (DNN-HMM) l' architecture hybride que les trains de la DNN pour produire une distribution sur Senones (ex aequo des Etats triphones) en tant que sortie

S'il vous plaît, si vous pouviez me donner une explication à ce sujet, je l'apprécierais vraiment.

ÉDITER:

J'ai trouvé cette définition dans cet article :

Nous proposons de modéliser des événements subphonétiques avec des états de Markov et de traiter l'état des modèles phonétiques cachés de Markov comme notre unité sous-phonétique de base - la sénone . Un modèle de mot est une concaténation de sénones dépendantes de l'état et les sénones peuvent être partagées entre différents modèles de mots.

Je suppose qu'ils sont utilisés dans la partie du modèle de Markov caché de l'architecture du premier article. S'agit-il des États du HMM? Les sorties du DNN?


Une senone est un terme de reconnaissance vocale. Est-ce la définition que vous recherchez ou une clarification de la façon dont ils sont modélisés dans ce document?
Sean Easter

Plus comme l'application d'alors au DNN-HMM. Ce sont les états du HMM mais aussi des sorties du DNN?
davidivad

1
Cet article décrit les senones en détail ... cmusphinx.sourceforge.net/wiki/tutorialconcepts
Mike Hunter

Réponses:


7

Voici ce que j'ai finalement compris:

Dans cette architecture, le DNN est utilisé pour transformer le bruit en téléphones.

En phonétique et linguistique, le mot téléphone peut désigner tout son ou geste de parole considéré comme un événement physique sans égard à sa place dans la phonologie d'une langue.

entrez la description de l'image ici

La dernière couche du DNN est formée par tous les téléphones possibles, ayant un neurone de sortie par téléphone. L'activation de ces neurones est la probabilité que le bruit d'entrée correspondant à ce téléphone.

La combinaison de ces activations est l'entrée du modèle de Markov caché et établit les senones du HMM, qui obtient une liste de textes candidats au moyen d'un dictionnaire.

Les senones sont les états du HMM, dans l'image suivante, les senones seraient x1 x2 et x3.

entrez la description de l'image ici

Veuillez me corriger si j'ai dit quelque chose de mal, j'espère que cela vous aidera!


1
@daviddavid, j'ai ajouté une réponse qui devrait expliquer un peu plus clairement ce qu'est une senone. Toute la modélisation sénone / acoustique est un peu compliquée dans la littérature.
Emiswelt

2

Dans la reconnaissance vocale, nous incluons souvent un certain contexte sur les téléphones voisins lors de la modélisation d'un certain téléphone. Cela signifie que notre système connaît non seulement les téléphones pour A, Bet ainsi de suite, mais a plutôt un concept E-then-A, O-then-B, X-then-Aet ainsi de suite.

Ces unités dépendantes du contexte sont appelées senones dans la littérature , ce qui est bien sûr un mot inventé.

Pour les systèmes de reconnaissance vocale, ces senones égalent généralement les états HMM du modèle acoustique, qui peuvent être prédits par un réseau de neurones, si une approche hybride DNN / HMM pour la modélisation acoustique est utilisée.

Le terme Senones a été inventé par les développeurs de la boîte à outils de reconnaissance vocale Janus. Il a ensuite été adopté par Dong Yu et Li Deng pour leur livre ASR. C'était à l'époque où les NN n'étaient pas utilisés pour la modélisation acoustique. Par conséquent, le terme prête à confusion.


1

"Senones" a été nommé par moi en 1992. Voir mon article ICASSP 1992: https://ieeexplore.ieee.org/document/225979 C'est juste un nom de fantaisie pour un groupe d'États Markov partagés, représentant des événements acoustiques similaires. Cela vient du contraste avec les fenones d'IBM, où le «f» signifie «cadre» et mon «s» signifie «état».


veuillez ajouter une référence complète pour votre lien au cas où il mourrait à l'avenir
Antoine

0

L'idée initiale est venue de mon travail Eurospeech de 1991 (maintenant appelé Interspeech), où j'ai utilisé un regroupement descendant sur les États de Markov. Vous pouvez trouver mon rapport technique CMU en 1991 ici: https://www.semanticscholar.org/paper/Shared-distribution-hidden-Markov-models-for-speech-Hwang-Huang/33ea989f1655636162b7e9b8e0cfe3fcce92c37d

En 1992, j'ai décidé de le déplacer vers le clustering d'arbres afin que l'on puisse également modéliser des téléphones cd invisibles.


veuillez ajouter une référence complète pour votre lien au cas où il mourrait à l'avenir
Antoine
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.