Réponses:
L'algorithme EM (maximisation des attentes) est un algorithme général pour l'optimisation de la fonction de vraisemblance dans les cas où le modèle est spécifié de façon probabiliste en termes de composante observée et non observée (latente). Les HMM (modèles de Markov cachés) sont des modèles de cette forme car ils ont une composante non observée, les états cachés et les observations réelles sont souvent appelées les émissions dans la terminologie HMM. Par conséquent, les HMM forment une classe de modèles pour lesquels l'algorithme EM peut être utile.
En général, si le modèle se compose de deux composantes , que nous supposons prendre des valeurs dans un espace fini pour plus de simplicité, et si la spécification du modèle probabiliste se compose des probabilités ponctuelles conjointes , paramétré par , alors la probabilité en observant seulement est p θ ( x , y ) θ X = x L x ( θ ) = ∑ y p θ ( x , y ) . θ
L'algorithme EM a plus de sens si les deux étapes ci-dessus peuvent être implémentées de manière efficace sur le plan des calculs, par exemple lorsque nous avons des expressions de forme fermée pour l'attente conditionnelle et la maximisation.
Historiquement, l'algorithme EM général est attribué à Dempster, Laird et Rubin , qui ont prouvé dans leur article de 1977, entre autres choses, que l'algorithme conduit à une séquence de paramètres avec des valeurs de probabilité augmentant de façon monotone. Ils ont également inventé le terme «algorithme EM». Fait intéressant, l'algorithme EM pour les HMM a déjà été décrit en 1970 par Baum et al. , et est aussi souvent appelé l' algorithme Baum-Welch dans la littérature HMM (je ne sais pas exactement ce que Welch a fait ...).
La maximisation des attentes est une méthode itérative utilisée pour effectuer l'inférence statistique sur une variété de modèles statistiques génératifs différents, par exemple un mélange de Gaussiens et d'autres modèles de type de réseau bayésien. La seule connexion est que les HMM sont également des réseaux bayésiens. Mais on n'utiliserait probablement pas EM sur les HMM car il existe un algorithme exact pour l'inférence au sein des HMM appelé l'algorithme de Viterbi. Donc, bien que l'on puisse utiliser EM pour effectuer l'inférence sur un HMM, vous ne le feriez pas parce qu'il n'y a aucune raison de le faire.
En HMM, nous essayons d'estimer principalement trois paramètres:
Les probabilités de l'état initial. Il s'agit d'un vecteur avec éléments, où est le nombre d'états.K
La matrice de transition. Ceci est une matrice carrée de taille .
Les probabilités conditionnelles d'observer un élément, conditionnées par un certain état. Il s'agit également d'une matrice de taille , où est le nombre d'observations.N
Maintenant, la partie EM vient lorsque vous essayez d'estimer les quantités / paramètres indiqués ci-dessus. En partant d'une supposition aléatoire, la probabilité des observations est évaluée et les paramètres sont ajustés de manière itérative jusqu'à obtenir la probabilité maximale. Ainsi, via HMM, nous modélisons certains processus et pour cela, nous devons introduire certains paramètres. Pour estimer les paramètres, EM est rendu.
Ceci est une réponse très brève. La mise en œuvre d'EM nécessite un tas d'autres sous-problèmes à résoudre via une série de techniques. Pour une compréhension approfondie, le papier tutoriel Rabiner classique est fortement recommandé.