Juste pour économiser du texte, appelez les données observées , les données manquantes (par exemple les états cachés du HMM) et le vecteur de paramètres que nous essayons de trouver (par exemple les probabilités de transition / émission).XZQ
L'explication intuitive est que nous trichons fondamentalement, faisons semblant pendant un moment que nous connaissons afin que nous puissions trouver une distribution conditionnelle de Z qui à son tour nous permet de trouver le MLE pour (ignorant pour le moment le fait que nous faisons essentiellement une circulaire argument), puis admettre que nous avons triché, mis dans notre nouvelle meilleure valeur pour , et recommencer jusqu'à ce que nous ne devons plus tricher.QQQ
QZ|{ X, Q }QQZ| {X, Q }Q
Plus techniquement encore, si nous connaissions , nous pourrions maximiser le log ( f ( Q | X , Z ) ) et avoir la bonne réponse. Le problème est que nous ne connaissons pas Z , et toute estimation pour Q doit en dépendre. Mais si nous voulons trouver la meilleure estimation (ou distribution) pour Z , alors nous devons connaître X etZJournal( f( Q | X,Z) )ZQZXQ . Nous sommes coincés dans une situation de poule et d'oeuf si nous voulons analytiquement le maximiseur unique.
QQnZ| { Qn, X}Q | { X, Z}Z| { Qn, X}ZQXQQZQQnQn + 1Z| { Qn + 1, X}