Ce qui est caché et ce qui est observé
Ce qui est caché dans un modèle de Markov caché est identique à ce qui est caché dans un modèle de mélange discret. Par souci de clarté, oubliez la dynamique de l'état caché et utilisez un modèle de mélange fini, par exemple. L '"état" dans ce modèle est l'identité de la composante qui a provoqué chaque observation. Dans cette classe de modèles, de telles causes ne sont jamais observées, de sorte que «cause cachée» est traduite statistiquement par l'affirmation selon laquelle les données observées ont des dépendances marginales qui sont supprimées lorsque le composant source est connu. Et les composantes sources sont estimées être ce qui rend cette relation statistique vraie.
Ce qui est caché dans un réseau neuronal multicouche à anticipation avec des unités centrales sigmoïdes, ce sont les états de ces unités, et non les sorties qui sont la cible de l'inférence. Lorsque la sortie du réseau est une classification, c'est-à-dire une distribution de probabilité sur des catégories de sortie possibles, ces valeurs d'unités cachées définissent un espace dans lequel les catégories sont séparables. L'astuce pour apprendre un tel modèle est de créer un espace caché (en ajustant la cartographie des unités d'entrée) dans lequel le problème est linéaire. Par conséquent, des limites de décision non linéaires sont possibles à partir du système dans son ensemble.
Génératif versus discriminant
Le modèle de mélange (et HMM) est un modèle du processus de génération de données, parfois appelé modèle de vraisemblance ou «modèle prospectif». Associé à certaines hypothèses sur les probabilités antérieures de chaque état, vous pouvez en déduire une distribution sur les valeurs possibles de l'état masqué à l'aide du théorème de Bayes (approche générative). Notez que, bien qu’ils soient appelés «antérieurs», l’ancien et les paramètres de vraisemblance sont généralement appris à partir de données.
Contrairement au modèle de mélange (et HMM), le réseau de neurones apprend directement une distribution a posteriori sur les catégories de sortie (approche discriminative). Cela est possible car les valeurs de sortie ont été observées lors de l'estimation. Et puisqu'elles ont été observées, il n'est pas nécessaire de construire une distribution postérieure à partir d'un modèle antérieur et spécifique pour la vraisemblance, telle qu'un mélange. Le postérieur est appris directement à partir des données, ce qui est plus efficace et moins dépendant du modèle.
Mélanger et assortir
Pour rendre les choses plus confuses, ces approches peuvent être mélangées, par exemple lorsque l'état du modèle de mélange (ou HMM) est parfois réellement observé. Lorsque cela est vrai et dans certaines autres circonstances non pertinentes ici, il est possible de s'entraîner de manière discriminante dans un modèle autrement génératif. De même, il est possible de remplacer la cartographie du modèle de mélange d'un HMM par un modèle de transfert plus souple, par exemple un réseau de neurones.
Questions
Il n'est donc pas tout à fait vrai que les deux modèles prédisent un état caché. Les HMM peuvent être utilisés pour prédire un état caché, mais uniquement du type attendu par le modèle prévisionnel. Les réseaux de neurones peuvent être utilisés pour prédire un état non encore observé , par exemple des états futurs pour lesquels des prédicteurs sont disponibles. Ce genre d'état n'est pas caché en principe, il n'a tout simplement pas été observé.
Quand utiliseriez-vous l'un plutôt que l'autre? Dans mon expérience, les réseaux de neurones constituent des modèles de séries chronologiques plutôt maladroits. Ils supposent également que vous avez observé une sortie. Les HMM n'en ont pas, mais vous n'avez vraiment aucun contrôle sur ce qu'est l'état caché. Néanmoins, ce sont des modèles appropriés de séries chronologiques.