Pourquoi l'algorithme de maximisation des attentes est-il utilisé?


22

D'après le peu que je connais, l'algorithme EM peut être utilisé pour trouver la probabilité maximale lorsque la mise à zéro des dérivées partielles par rapport aux paramètres de la probabilité donne un ensemble d'équations qui ne peuvent pas être résolues analytiquement. Mais l'algorithme EM est-il nécessaire au lieu d'utiliser une technique numérique pour essayer de trouver un maximum de vraisemblance par rapport à la contrainte de l'ensemble des équations mentionnées.

Réponses:


20

La question est légitime et j'ai eu la même confusion lorsque j'ai appris l'algorithme EM pour la première fois.

De manière générale, l'algorithme EM définit un processus itératif qui permet de maximiser la fonction de vraisemblance d'un modèle paramétrique dans le cas où certaines variables du modèle sont (ou sont traitées comme) «latentes» ou inconnues.

En théorie, dans le même but, vous pouvez utiliser un algorithme de minimisation pour trouver numériquement le maximum de la fonction de vraisemblance pour tous les paramètres. Cependant en situation réelle, cette minimisation serait:

  1. beaucoup plus de calculs
  2. moins robuste

Une application très courante de la méthode EM est l'ajustement d'un modèle de mélange. Dans ce cas, si l'on considère la variable qui affecte chaque échantillon à l'une des composantes en tant que variables "latentes", le problème est grandement simplifié.

Regardons un exemple. Nous avons N échantillons extraits d'un mélange de 2 distributions normales. Pour trouver les paramètres sans EM, nous devons minimiser:s={sje}

-bûcheL(X,θ)=-bûche[une1exp((X-μ1)22σ12)+une2exp((X-μ2)22σ22)]

Au contraire, en utilisant l'algorithme EM, nous "assignons" d'abord chaque échantillon à un composant ( étape E ), puis nous ajustons (ou maximisons la probabilité de) chaque composant séparément ( étape M ). Dans cet exemple, l' étape M est simplement une moyenne pondérée pour trouver et . Itérer sur ces deux étapes est un moyen plus simple et plus robuste de minimiser .σ k - log L ( x , θ )μkσk-bûcheL(X,θ)


12

EM n'est pas nécessaire au lieu d'utiliser une technique numérique car EM est également une méthode numérique. Ce n'est donc pas un substitut à Newton-Raphson. EM est pour le cas spécifique où il manque des valeurs dans votre matrice de données. Considérons un échantillon qui a une densité conditionnelle . Alors, la probabilité logarithmique de ceci est Supposons maintenant que vous n'avez pas un ensemble de données complet tel que est composé de données observées et les variables manquantes (ou latentes) , telles que . Ensuite, la log-vraisemblance pour les données observées est X=(X1,...,Xn)FX|Θ(X|θ)

l(θ;X)=logFX|Θ(X|θ)
XOuiZX=(Oui,Z)
lobs(θ,Oui)=logFX|Θ(Oui,z|θ)νz(z)
En général, vous ne pouvez pas calculer directement cette intégrale et vous n'obtiendrez pas une solution de forme fermée pour . Pour cela, vous utilisez la méthode EM. Il y a deux étapes qui sont répétées pour fois. Dans cette étape , il s'agit de l'étape d'attente dans laquelle vous calculez où est l'estimation de à l' étape . Ensuite, calculez l'étape de maximisation dans laquelle vous maximisez par rapport à et setlobs(θ,Oui)je(je+1)th
Q(θ|θ(je))=Eθ(je)[l(θ;X|Oui]
θ(je)ΘjethQ(θ|θ(je))θθ(je+1)=muneXQ(θ|θje) . Vous répétez ensuite ces étapes jusqu'à ce que la méthode converge vers une valeur qui sera votre estimation.

Si vous avez besoin de plus d'informations sur la méthode, ses propriétés, ses preuves ou ses applications, jetez un œil à l' article Wiki correspondant .


1
+1 ... EM n'est pas seulement pour le cas des valeurs manquantes.
Glen_b -Reinstate Monica

@Andy: Même en considérant le cas de données manquantes, je ne comprends toujours pas pourquoi l'utilisation de méthodes numériques génériques pour trouver un point où les dérivées partielles sont nulles ne fonctionne pas.
user782220

Merci Glen, je ne le savais que dans le contexte de valeurs manquantes / variables latentes. @ user782220: lorsque vous ne pouvez pas avoir une solution de forme fermée de la dérivée de vraisemblance logarithmique, la définition de la dérivée égale à zéro n'identifiera pas votre paramètre. C'est pourquoi vous utilisez des méthodes numériques dans ce cas. Pour une explication et un exemple, voir la conférence ici: people.stat.sfu.ca/~raltman/stat402/402L5.pdf
Andy

1

EM est utilisé car il est souvent impossible ou impossible de calculer directement les paramètres d'un modèle qui maximise la probabilité d'un ensemble de données compte tenu de ce modèle.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.