Je lis cet article: traducteur skype où ils utilisent des CD-DNN-HMM (réseaux neuronaux profonds dépendants du contexte avec des modèles de Markov cachés). Je peux comprendre l'idée du projet et l'architecture qu'ils ont conçue mais je ne comprends pas ce que sont les senones . Je cherchais une définition mais je n'ai rien trouvé
—Nous proposons un nouveau modèle dépendant du contexte (CD) pour la reconnaissance vocale à grand vocabulaire (LVSR) qui exploite les avancées récentes dans l'utilisation des réseaux de croyances profondes pour la reconnaissance téléphonique. Nous décrivons un réseau de neurones profond pré-formé modèle de Markov caché (DNN-HMM) l' architecture hybride que les trains de la DNN pour produire une distribution sur Senones (ex aequo des Etats triphones) en tant que sortie
S'il vous plaît, si vous pouviez me donner une explication à ce sujet, je l'apprécierais vraiment.
ÉDITER:
J'ai trouvé cette définition dans cet article :
Nous proposons de modéliser des événements subphonétiques avec des états de Markov et de traiter l'état des modèles phonétiques cachés de Markov comme notre unité sous-phonétique de base - la sénone . Un modèle de mot est une concaténation de sénones dépendantes de l'état et les sénones peuvent être partagées entre différents modèles de mots.
Je suppose qu'ils sont utilisés dans la partie du modèle de Markov caché de l'architecture du premier article. S'agit-il des États du HMM? Les sorties du DNN?