Réponses:
De:
Xu L et Jordan MI (1996). Sur les propriétés de convergence de l'algorithme EM pour les mélanges gaussiens . Calcul neuronal 2: 129-151.
Abstrait:
Nous montrons que l'étape EM dans l'espace des paramètres est obtenue à partir du gradient via une matrice de projection P, et nous fournissons une expression explicite pour la matrice.
Page 2
En particulier, nous montrons que l'étape EM peut être obtenue en pré-multipliant le gradient par une matrice de dénit positive. Nous fournissons une expression explicite pour la matrice ...
Page 3
Autrement dit, l'algorithme EM peut être considéré comme un algorithme de montée à gradient métrique variable ...
Autrement dit, l'article fournit des transformations explicites de l'algorithme EM en ascension en gradient, Newton, quasi-Newton.
De wikipedia
Il existe d'autres méthodes pour trouver des estimations du maximum de vraisemblance, telles que la descente de gradient, le gradient conjugué ou les variations de la méthode de Gauss – Newton. Contrairement à l'EM, ces méthodes nécessitent généralement l'évaluation des dérivées premières et / ou secondes de la fonction de vraisemblance.
Non, ils ne sont pas équivalents. En particulier, la convergence EM est beaucoup plus lente.
Si vous êtes intéressé par un point de vue d'optimisation sur EM, dans cet article, vous verrez que l'algorithme EM est un cas particulier d'une classe plus large d'algorithmes (algorithmes de point proximal).