Application de la maximisation des attentes aux exemples de lancer de pièces

J'ai auto-étudié la maximisation des attentes récemment et je me suis emparé de quelques exemples simples dans le processus:

De là : Il y a trois pièces , et avec , et la probabilité respective d'atterrir sur la tête lorsqu'elle est lancée. Toss . Si le résultat est Tête, lancez trois fois, sinon lancez trois fois. Les données observées produites par et sont les suivantes: HHH, TTT, HHH, TTT, HHH. Les données cachées sont le résultat de . Estimez , et . $c_0$ $c_1$ $c_2$ $p_0$ $p_1$ $p_2$ $c_0$ $c_1$ $c_2$ $c_1$ $c_2$ $c_0$ $p_0$ $p_1$ $p_2$

Et à partir d' ici : Il y a deux pièces et avec et étant la probabilité respective d'atterrir sur la tête lorsqu'elle est lancée. Chaque tour, sélectionnez une pièce au hasard et lancez-la dix fois; enregistrer les résultats. Les données observées sont les résultats du tirage fournis par ces deux pièces. Cependant, nous ne savons pas quelle pièce a été sélectionnée pour un tour particulier. Estimation et . $c_A$ $c_B$ $p_A$ $p_B$ $p_A$ $p_B$

Bien que je puisse obtenir les calculs, je ne peux pas relier les façons dont ils sont résolus à la théorie EM originale. Plus précisément, pendant l'étape M des deux exemples, je ne vois pas comment ils maximisent quoi que ce soit. Il semble juste qu'ils recalculent les paramètres et d'une manière ou d'une autre, les nouveaux paramètres sont meilleurs que les anciens. De plus, les deux étapes E ne se ressemblent même pas, sans parler de l'étape E de la théorie originale.

Alors, comment fonctionnent exactement ces exemples?

probability-theory statistics

— IcySnow
source

Dans le premier exemple, combien d'instances de la même expérience obtenons-nous? Dans le deuxième exemple, quelle est la loi de "sélectionner une pièce au hasard"? Combien de rounds observons-nous?

— Raphael

Les fichiers PDF que j'ai liés résolvent déjà ces deux exemples étape par étape. Cependant, je ne comprends pas vraiment l'algorithme EM utilisé.

— IcySnow

@IcySnow, comprenez-vous le concept d'attente et d'attente conditionnelle d'une variable aléatoire?

— Nicholas Mancuso

Je comprends l'attente de base d'une variable aléatoire et d'une probabilité conditionnelle. Cependant, je ne connais pas l'attente conditionnelle, sa dérivée et sa statistique suffisante.

— IcySnow

(Cette réponse utilise le deuxième lien que vous avez donné.)

$\newcommand{\Like}{\text{L}}\newcommand{\E}{\text{E}}$

L [θ | X] = Pr [X | θ] = \sum_{Z} Pr [X, Z | θ]

$\Like[\theta | X] = \Pr[X| \theta] = \sum_Z \Pr[X, Z | \theta]$

θ = (θ_{A}, θ_{B})

$\theta = (\theta_A, \theta_B)$

X = (X_{1}, \dots, X_{5})

$X = (X_1, \dotsc, X_5)$

X_{i}

$X_i$

Z = (Z_{1}, \dots, Z_{5})

$Z = (Z_1, \dotsc, Z_5)$

Nous voulons trouver l'estimateur du maximum de vraisemblance . L'algorithme Expectation-Maximization (EM) est une de ces méthodes pour trouver (au moins local) . Il fonctionne en trouvant l'espérance conditionnelle, qui est ensuite utilisée pour maximiser . L'idée est qu'en trouvant continuellement un plus probable (c'est-à-dire plus probable) à chaque itération, nous augmenterons continuellement qui à son tour, augmentera la fonction de vraisemblance. Il y a trois choses à faire avant de continuer à concevoir un algorithme basé sur EM. $\hat{\theta}$ $\hat{\theta}$ $\theta$ $\theta$ $\Pr[X,Z|\theta]$

Construire le modèle
Calcul des attentes conditionnelles sous le modèle (E-Step)
Maximisez notre probabilité en mettant à jour notre estimation actuelle de (étape M) $\theta$

Construire le modèle

Avant d'aller plus loin avec EM, nous devons déterminer ce que nous calculons exactement. Dans l'étape E, nous calculons exactement la valeur attendue pour . Alors, quelle est vraiment cette valeur? Observez que La raison en est que nous avons 5 expériences à prendre en compte, et nous ne savons pas quelle pièce a été utilisée dans chacune. L'inégalité est due à $\log \Pr[X,Z|\theta]$

\begin{aligned} \log Pr [X, Z | θ] & = \sum_{i = 1}^{5} \log \sum_{C \in {A, B}} Pr [X_{i}, Z_{i} = C | θ] \\ = \sum_{i = 1}^{5} \log \sum_{C \in {A, B}} Pr [Z_{i} = C | X_{i}, θ] \cdot \frac{Pr [X_{i}, Z_{i} = C | θ]}{Pr [Z_{i} = C | X_{i}, θ]} \\ \geq \sum_{i = 1}^{5} \sum_{C \in {A, B}} Pr [Z_{i} = C | X_{i}, θ] \cdot \log \frac{Pr [X_{i}, Z_{i} = C | θ]}{Pr [Z_{i} = C | X_{i}, θ]} . \end{aligned}

$\begin{align*} \log \Pr[X,Z|\theta] &= \sum_{i=1}^5 \log\sum_{C\in \{A,B\}}\Pr[X_i, Z_i=C| \theta]\\ &=\sum_{i=1}^5 \log\sum_{C\in \{A,B\}} \Pr[Z_i=C | X_i, \theta] \cdot \frac{\Pr[X_i, Z_i=C| \theta]}{\Pr[Z_i=C | X_i, \theta]}\\ &\geq \sum_{i=1}^5 \sum_{C\in \{A,B\}} \Pr[Z_i=C | X_i, \theta] \cdot \log\frac{\Pr[X_i, Z_i=C| \theta]}{\Pr[Z_i=C | X_i, \theta]}. \end{align*}$

\log

$\log$ être concave et appliquer l'inégalité de Jensen. La raison pour laquelle nous avons besoin de cette borne inférieure est que nous ne pouvons pas calculer directement l'arg max à l'équation d'origine. Cependant, nous pouvons le calculer pour la borne inférieure finale.

Maintenant, qu'est-ce que ? C'est la probabilité que nous voyions la pièce expérience et . En utilisant les probabilités conditionnelles, nous avons, $\Pr[Z_i=C|X_i,\theta]$ $C$ $X_i$ $\theta$

Pr [Z_{je} = C | X_{je}, θ] = \frac{Pr [X_{je}, Z_{je} = C | θ]}{Pr [X_{je} | θ]} .

$\Pr[Z_i=C| X_i, \theta] = \frac{\Pr[X_i, Z_i = C|\theta]}{\Pr[X_i|\theta]}.$

Bien que nous ayons fait quelques progrès, nous n'en avons pas encore fini avec le modèle. Quelle est la probabilité qu'une pièce donnée retourne la séquence ? Laisser Maintenant est clairement que la probabilité dans les deux possibilités de ou . Puisque nous avons, $X_i$ $h_i = \#\text{heads in } X_i$

Pr [X_{je}, Z_{je} = C | θ] = \frac{1}{2} \cdot θ_{C}^{h_{je}} (1 - θ_{C})^{dix - h_{je}}, pour C \in {UNE, B} .

$\Pr[X_i, Z_i = C| \theta] = \frac{1}{2} \cdot \theta_C^{h_i} (1 - \theta_C)^{10 - h_i},\ \text{ for } \ C \in \{A, B\}.$

Pr [X_{i} | θ]

$\Pr[X_i|\theta]$

Z_{i} = A

$Z_i=A$

Z_{i} = B

$Z_i=B$

Pr [Z_{i} = A] = Pr [Z_{i} = B] = 1 / 2

$\Pr[Z_i = A] = \Pr[Z_i = B] = 1/2$

Pr [X_{je} | θ] = 1 / 2 \cdot (Pr [X_{je} | Z_{je} = UNE, θ] + Pr [X_{je} | Z_{je} = B, θ]) .

$\Pr[X_i|\theta] = 1/2 \cdot (\Pr[X_i |Z_i = A, \theta] + \Pr[X_i |Z_i = B, \theta]).$

E-Step

D'accord ... ce n'était pas si amusant, mais nous pouvons commencer à faire du travail EM maintenant. L'algorithme EM commence par faire une supposition aléatoire pour . Dans cet exemple, nous avons . Nous calculons Cette valeur correspond à ce qui est dans le papier. Maintenant, nous pouvons calculer le nombre attendu de têtes dans partir de la pièce , Faire la même chose pour la pièce nous obtenons, $\theta$ $\theta^0 = (0.6,0.5)$

Pr [Z_{1} = UNE | X_{1}, θ] = \frac{1 / 2 \cdot ({0,6}^{5} \cdot {0,4}^{5})}{1 / 2 \cdot (({0,6}^{5} \cdot {0,4}^{5}) + ({0,5}^{5} \cdot {0,5}^{5}))} \approx 0,45.

$\Pr[Z_1=A|X_1,\theta] = \frac{1/2 \cdot (0.6^5 \cdot 0.4^5)}{1/2 \cdot ((0.6^5 \cdot 0.4^5) + (0.5^5 \cdot 0.5^5))} \approx 0.45.$

X_{1} = (H, T, T, T, H, H, T, H, T, H)

$X_1 = (H,T,T,T,H,H,T,H,T,H)$

A

$A$

E [# têtes par pièce UNE | X_{1}, θ] = h_{1} \cdot Pr [Z_{1} = UNE | X_{1}, θ] = 5 \cdot 0,45 \approx 2.2.

$\E[\# \text{heads by coin }A | X_1, \theta] = h_1 \cdot \Pr[Z_1=A|X_1,\theta] = 5 \cdot 0.45 \approx 2.2.$

B

$B$

E [# têtes par pièce B | X_{1}, θ] = h_{1} \cdot Pr [Z_{1} = B | X_{1}, θ] = 5 \cdot 0,55 \approx 2.8.

$\E[\# \text{heads by coin }B | X_1, \theta] = h_1 \cdot \Pr[Z_1=B|X_1,\theta] = 5 \cdot 0.55 \approx 2.8.$ Nous pouvons calculer la même chose pour le nombre de queues en substituant à . Cela continue pour toutes les autres valeurs de et . Grâce à la linéarité des attentes, nous pouvons comprendre

h_{1}

$h_1$

10 - h_{1}

$10 - h_1$

X_{i}

$X_i$

h_{i}

$h_i$

1 \leq i \leq 5

$1 \leq i \leq 5$

E [# têtes par pièce UNE | X, θ] = \sum_{je = 1}^{5} E [# têtes par pièce UNE | X_{je}, θ]

$\E[\#\text{heads by coin } A|X ,\theta] = \sum_{i=1}^5 \E[\# \text{heads by coin }A | X_i, \theta]$

M-Step

Avec nos valeurs attendues en main, vient maintenant l'étape M où nous voulons maximiser compte tenu de nos valeurs attendues. Cela se fait par simple normalisation! De même pour . Ce processus recommence avec l'E-Step et et continue jusqu'à ce que les valeurs de convergent (ou jusqu'à un certain seuil autorisé). Dans cet exemple, nous avons 10 itérations et . À chaque itération, la valeur de augmente, en raison de la meilleure estimation de $\theta$

θ_{UNE}^{1} = \frac{E [# se dirige vers X par pièce UNE | X, θ]}{E [# têtes et queues sur X par pièce UNE | X, θ]} = \frac{21,3}{21,3 + 9,6} \approx 0,71.

$\theta_A^1 = \frac{E[\#\text{heads over } X \text{ by coin } A|X ,\theta]}{E[\#\text{heads and tails over } X \text{ by coin } A|X ,\theta]} = \frac{21.3}{21.3 + 9.6} \approx 0.71.$

B

$B$

θ^{1}

$\theta^1$

θ

$\theta$

\hat{θ} = θ^{10} = (0.8, 0.52)

$\hat{\theta} = \theta^{10} = (0.8, 0.52)$

Pr [X, Z | θ]

$\Pr[X,Z|\theta]$

θ

$\theta$ .

Maintenant, dans ce cas, le modèle était assez simpliste. Les choses peuvent devenir beaucoup plus compliquées assez rapidement, mais l'algorithme EM convergera toujours et produira toujours un estimateur de vraisemblance maximum . Il peut s'agir d'un estimateur local , mais pour contourner ce problème, nous pouvons simplement redémarrer le processus EM avec une initialisation différente. Nous pouvons le faire un nombre de fois constant et conserver les meilleurs résultats (c'est-à-dire ceux avec la probabilité finale la plus élevée). $\hat{\theta}$

— Nicholas Mancuso
source

Si certaines parties ne sont pas claires, je peux également les développer.

— Nicholas Mancuso

Cela devient beaucoup plus clair maintenant. Ce que je ne comprends pas vraiment, c'est pourquoi le nombre attendu de têtes pour la pièce A a été calculé comme suit: E [#têtes par pièce A | X1, θ] = h1⋅Pr [Z1 = A | X1, θ] = 5⋅0.45 ≈2,2? Le problème mentionné dans le premier PDF est plus compliqué. Si cela ne vous dérange pas, pouvez-vous également faire des calculs illustratifs? Merci beaucoup pour votre réponse.

— IcySnow

@IcySnow, en ce qui concerne le calcul des attentes: . La raison en est que vous pouvez penser qu'il existe une autre variable aléatoire d'indicateur si A a été utilisé. Le calcul des attentes par rapport aux variables indicatrices est simplement la probabilité de cet événement.

E [# heads by coin A | X_{1}, θ] = \sum_{# heads in X_{1}} Pr [Z_{1} = A | X_{1}, θ] = 5 \cdot Pr [Z_{1} = A | X_{1}, θ]

$E[\# \text{ heads by coin }A|X_1,\theta] = \sum_{\#\text{ heads in }X_1} \Pr[Z_1 = A| X_1, \theta] = 5 \cdot \Pr[Z_1 = A| X_1, \theta]$

— Nicholas Mancuso

Désolé pour la réponse lente. Grâce à vous, je peux maintenant vraiment comprendre la logique derrière les deux exemples de pièces, après avoir répété votre réponse plusieurs fois. Il y a une dernière chose que je veux demander concernant cette question: l'exemple à partir de la page 8 de cette diapositive cs.northwestern.edu/~ddowney/courses/395_Winter2010/em.ppt montre que dans l'étape M, nous devons d'abord calculer la dérivée de la fonction log-vraisemblance et l'utiliser pour maximiser l'attente. Pourquoi n'y a-t-il pas quelque chose comme ça dans les M-Steps des exemples de lancer de pièces? Parce que ces étapes M n'ont pas l'air de maximiser quoi que ce soit

— IcySnow

Je suis confus par la première équation affichée après "Construire le modèle". Pouvez-vous expliquer d'où cela vient? Il me semble que , donc la somme intérieure est 1 pour chaque , donc tout le côté droit devient nul. Je suis sûr qu'il me manque quelque chose - pouvez-vous expliquer le raisonnement sur la façon dont vous êtes arrivé à cette équation?

Pr [Z_{i} = A | X_{i}, θ] + Pr [Z_{i} = B | X_{i}, θ] = 1

$\Pr[Z_i=A|X_i,\theta]+\Pr[Z_i=B|X_i,\theta]=1$

i

$i$

— DW