Pourquoi devrait-on utiliser EM vs dire, Gradient Descent avec MLE?

Mathématiquement, on voit souvent que les expressions et les algorithmes pour la maximisation des attentes (EM) sont souvent plus simples pour les modèles mixtes, mais il semble que presque tout (sinon tout) qui peut être résolu avec EM peut également être résolu avec MLE (par, disons, la méthode Newton-Raphson, pour les expressions non fermées).

Dans la littérature, cependant, il semble que beaucoup préfèrent l'EM aux autres méthodes (y compris la minimisation de la LL par, par exemple, la descente du gradient); est-ce à cause de sa simplicité dans ces modèles? Ou est-ce pour d'autres raisons?

mixed-model maximum-likelihood expectation-maximization

— Guillermo Angeris
source

Je pense qu'il y a des fils croisés ici. Le MLE, tel que mentionné dans la littérature statistique, est l'estimation du maximum de vraisemblance. Ceci est un estimateur . L'algorithme EM est, comme son nom l'indique, un algorithme qui est souvent utilisé pour calculer le MLE. Ce sont des pommes et des oranges.

Lorsque le MLE n'est pas sous forme fermée, un algorithme couramment utilisé pour le trouver est l'algorithme de Newton-Raphson, qui peut être ce à quoi vous faites référence lorsque vous dites "peut également être résolu avec MLE". Dans de nombreux problèmes, cet algorithme fonctionne très bien; pour les problèmes de "vanille", il est généralement difficile à battre.

Cependant, il y a beaucoup de problèmes en cas d'échec, tels que les modèles de mélange. D'après mon expérience avec divers problèmes de calcul, bien que l'algorithme EM ne soit pas toujours le choix le plus rapide, il est souvent le plus facile pour diverses raisons. Plusieurs fois avec de nouveaux modèles, le premier algorithme utilisé pour trouver le MLE sera un algorithme EM. Ensuite, plusieurs années plus tard, les chercheurs peuvent constater qu'un algorithme beaucoup plus compliqué est beaucoup plus rapide. Mais ces algorithmes ne sont pas trivalents.

De plus, je pense qu'une grande partie de la popularité de l'algorithme EM est sa saveur statistique, aidant les statisticiens à se sentir différenciés des analystes numériques.

— Cliff AB
source

"... aider les statisticiens à se différencier des analystes numériques" --- Je vais certainement enregistrer cette ligne pour une utilisation ultérieure.

— Guillermo Angeris

De plus (je viens de mettre à jour la question, car c'était mon intention initiale de l'inclure également), mais pourquoi devrions-nous utiliser EM au lieu d'un algorithme comme Gradient Descent? Quelle est la préférence pour l'un ou pour l'autre? Vitesse de convergence, peut-être?

— Guillermo Angeris

Dans le travail que j'ai fait, le plus grand avantage de l'algorithme EM est le fait que les valeurs des paramètres proposées sont toujours valides: c'est-à-dire des masses de probabilité entre [0,1] qui totalisent 1, ce qui n'est pas nécessairement le cas pour Descente graduelle. Un autre avantage est que vous ne devriez pas avoir à calculer la probabilité d’assurer qu’elle a augmenté à chaque étape. C'est un gros problème si la mise à jour peut être calculée rapidement, mais la probabilité ne le peut pas.

— Cliff AB

Un autre aspect très agréable de l'algorithme EM: a tendance à être beaucoup plus stable numériquement que les méthodes basées sur un gradient. Mes recherches ont commencé avec les algorithmes EM et il m'a fallu 4 ans pour réaliser à quel point l'instabilité numérique pouvait être gênante (c'est-à-dire quand j'ai commencé à utiliser des algorithmes non EM).

— Cliff AB

intéressant. Je suppose que cette question vient de se poser à nouveau pour moi, mais qu'en est-il de faire quelque chose de similaire à l'optimisation convexe (sur les sous-gradients) où vous effectuez essentiellement une descente de gradient, puis projetez simplement sur l'ensemble réalisable? Je veux dire, cela semble certainement beaucoup plus difficile que EM, mais quels seraient les autres inconvénients?

— Guillermo Angeris