Comment la preuve de l'échantillonnage de rejet est-elle logique?

Je prends un cours sur les méthodes de Monte Carlo et nous avons appris la méthode d'échantillonnage par rejet (ou Accept-Reject Sampling) lors de la dernière conférence. Il y a beaucoup de ressources sur le web qui montrent la preuve de cette méthode mais je ne suis pas convaincu avec elles.

Ainsi, dans l'échantillonnage de rejet, nous avons une distribution $f(x)$ qui est difficile à échantillonner. Nous choisissons une distribution facile à échantillonner $g(x)$ et trouver un coefficient $c$ tel que $f(x) \leq cg(x)$ . Ensuite, nous échantillonnons $g(x)$ et pour chaque tirage, $x_i$ , nous échantillonnons également un $u$ à partir d'une distribution uniforme standard $U(u|0,1)$ .

L'échantillon $x_i$ est accepté s'il est $cg(x_i)u \leq f(x_i)$ et rejeté autrement.

Les preuves que j'ai rencontrées montrent généralement que $p(x|Accept) = f(x)$ et arrêtez-vous là.

Ce que je pense de ce processus, c'est que nous avons une séquence de variables $x_1,Accept_1,x_2,Accept_2,...,x_n,Accept_n$ et un $x_i,Accept_i$ la paire correspond à notre i.th échantillon ( $x_i$ ) et s'il est accepté ( $Accept_i$ ). Nous savons que chacun $x_i,Accept_i$ la paire est indépendante l'une de l'autre, de sorte que:

$P(x_1,Accept_1,x_2,Accept_2,...,x_n,Accept_n) = \prod\limits_{i=1}^n P(x_i,Accept_i)$

Pour un $(x_i,Accept_i)$ paire, nous savons que $P(x_i) = g(x_i)$ et $P(Accept_i|x_i) = \frac{f(x_i)}{cg(x_i)}$ . Nous pouvons facilement calculer $p(x_i|Accept_i)$ mais je ne comprends pas comment cela suffit comme preuve. Nous devons montrer que l'algorithme fonctionne, donc je pense qu'une preuve devrait montrer que la distribution empricial des échantillons acceptés converge vers $f(x)$ comme $n\rightarrow\infty$ . Je veux dire, avec $n$ étant le nombre de tous les échantillons acceptés et rejetés:

$\frac{Number \hspace{1mm} of \hspace{1mm} samples \hspace{1mm} with \hspace{1mm} (A \leq x_i \leq B)}{Number \hspace{1mm} of \hspace{1mm} accepted \hspace{1mm} samples} \rightarrow \int_A^B f(x)dx$ comme $n\rightarrow\infty$ .

Ai-je tort avec ce schéma de pensée? Ou existe-t-il un lien entre la preuve commune de l'algorithme et celle-ci?

Merci d'avance

sampling monte-carlo rejection-sampling

— Ufuk Can Bicici
source

Réponses:

Vous devez penser à l'algorithme comme produisant des tirages à partir d'une variable aléatoire, pour montrer que l'algorithme fonctionne, il suffit de montrer que l'algorithme tire à partir de la variable aléatoire que vous souhaitez.

Laisser $X$ et $Y$ être des variables aléatoires scalaires avec pdfs $f_X$ et $f_Y$ respectivement, où $Y$ est quelque chose que nous savons déjà échantillonner. Nous pouvons également savoir que nous pouvons $f_X$ par $Mf_Y$ où $M\ge1$ .

Nous formons maintenant une nouvelle variable aléatoire $A$ où $A | y \sim \text{Bernoulli } \left (\frac{f_X(y)}{Mf_Y(y)}\right )$ , cela prend la valeur $1$ avec probabilité $\frac{f_X(y)}{Mf_Y(y)}$ et $0$ autrement. Cela représente l'algorithme «acceptant» un tirage de $Y$ .

Maintenant, nous exécutons l'algorithme et collectons tous les tirages de $Y$ qui sont acceptés, appelons cette variable aléatoire $Z = Y|A=1$ .

Montrer que $Z \equiv X$ , pour tout événement $E$ , nous devons montrer que $P(Z \in E) =P(X \in E)$ .

Essayons donc cela, utilisons d'abord la règle de Bayes:

$P(Z \in E) = P(Y \in E | A =1) = \frac{P(Y \in E \& A=1)}{P(A=1)}$ ,

et la partie supérieure que nous écrivons

\begin{aligned} P (Y \in E & A = 1) & = \int_{E} f_{Y, A} (y, 1) d y \\ = \int_{E} f_{A | Y} (1, y) f_{Y} (y) d y = \int_{E} f_{Y} (y) \frac{f_{X} (y)}{M f_{Y} (y)} d y = \frac{P (X \in E)}{M} . \end{aligned}

$\begin{align*}P(Y \in E \& A=1) &= \int_E f_{Y, A}(y,1) \, dy \\ &= \int_E f_{A|Y}(1,y)f_Y(y) \, dy =\int_E f_Y(y) \frac{f_X(y)}{Mf_Y(y)} \, dy =\frac{P(X \in E)}{M}.\end{align*}$

Et puis la partie inférieure est tout simplement

$P(A=1) = \int_{-\infty}^{\infty}f_{Y,A}(y,1) \, dy = \frac{1}{M}$ ,

par le même raisonnement que ci-dessus, $E=(-\infty, +\infty)$ .

Et ceux-ci se combinent pour donner $P(X \in E)$ , c'est ce que nous voulions, $Z \equiv X$ .

C'est ainsi que fonctionne l'algorithme, mais à la fin de votre question, vous semblez être préoccupé par une idée plus générale, à savoir quand une distribution empirique converge-t-elle vers la distribution échantillonnée? C'est un phénomène général concernant tout échantillonnage que ce soit si je vous comprends bien.

Dans ce cas, laissez $X_1, \dots, X_n$ être iid variables aléatoires toutes avec distribution $\equiv X$ . Alors pour tout événement $E$ , $\frac{\sum_{i=1}^n1_{X_i \in E}}{n}$ a des attentes $P(X \in E)$ par la linéarité de l'attente.

De plus, étant donné les hypothèses appropriées, vous pouvez utiliser la loi forte des grands nombres pour montrer que la probabilité empirique converge presque sûrement vers la vraie probabilité.

— Harri
source

Merci d'avoir répondu. Pouvez-vous préciser comment puis-je montrer que la distribution empricale converge vers la distribution cible en utilisant la loi des grands nombres? C'est exactement ce que j'essaie de montrer dans ce cas.

— Ufuk Can Bicici

Glivenko-Cantelli: www2.imperial.ac.uk/~das01/MyWeb/M3S3/Handouts/…

— Zen

@Harri Ce qui me dérange, c'est le fait qu'on apprend la variable aléatoire indiquant l'acceptation du tirage (

A = 1

$A=1$ ) après avoir appris la valeur de la variable réelle. On observe les variables selon la séquence

Y_{1}, A_{1}, Y_{2}, A_{2}, . . ., Y_{n}, A_{n}

$Y_1,A_1,Y_2,A_2,...,Y_n,A_n$ , donc si nous allons observer la variable

Y_{2}

$Y_2$ , ce que nous savons du système est

Y_{1}

$Y_1$ et

A_{1}

$A_1$ et depuis

Y_{2}

$Y_2$ est indépendant d'eux, ce que nous traitons est d'abord

P (Y_{2})

$P(Y_2)$ , puis

P (A_{2} | Y_{2})

$P(A_2|Y_2)$ pas l'inverse.

— Ufuk Can Bicici

Pourriez-vous en dire plus sur la raison pour laquelle l'ordre de savoir

P (Y_{2})

$P(Y_2)$ et alors

P (A_{2} | Y_{2})

$P(A_2|Y_2)$ vous dérange?

— Harri

Tout d'abord, gardez à l'esprit qu'une procédure complète de la méthode d'échantillonnage de rejet ne produit qu'une seule variable aléatoire. Quand certains $x_i$ est acceptée, la procédure s'arrête et il n'y a pas $x_{i+1}$ plus. Si vous voulez plusieurs variables aléatoires, répétez simplement la procédure plusieurs fois.

Dans certains manuels, ils dénotent l’acceptation par $A$ et calculer la probabilité

\begin{aligned} P (A) = & \int_{- \infty}^{\infty} d x \int_{0}^{\frac{f (x)}{c g (x)}} g (x) d u \\ = & \int_{- \infty}^{\infty} \frac{1}{c} f (x) d x \\ = & \frac{1}{c} . \end{aligned}

$\begin{aligned} P(A) =& \int_{-\infty}^{\infty}dx\int_0^{\frac{f(x)}{cg(x)}}g(x)du \\ =& \int_{-\infty}^{\infty}\frac{1}{c}f(x)dx \\ =& \frac{1}{c}. \end{aligned}$

\begin{aligned} f_{X} (x | A) = & \frac{f_{X} (x) \cdot P (A | x)}{P (A)} \\ = & \frac{g (x) \cdot \frac{f (x)}{c g (x)}}{\frac{1}{c}} \\ = & f (x) . \end{aligned}

$\begin{aligned} f_X(x|A) =& \frac{f_X(x) \cdot P(A|x)}{P(A)}\\ =& \frac{g(x) \cdot \frac{f(x)}{cg(x)}}{\frac{1}{c}} \\ =& f(x). \end{aligned}$

La chose déroutante est que l'acceptation $A$ ici semble être l'acceptation d'un seul échantillon de $x_i$ , mais toute la procédure peut rejeter plusieurs $x_i$ 's.

Oui, une preuve plus rigoureuse devrait considérer la probabilité d'acceptation à différentes étapes. Laisser $X_i$ dénoter la $i$ e échantillon, $f_{X_i}$ dénoter la fonction de densité de probabilité de $X_i$ , $A_i$ dénoter la $i$ e acceptation, et $X_\infty$ indique la valeur finale acceptée. Ensuite, la fonction de densité de probabilité de $X_\infty$ est

f_{X_{\infty}} (x) = P (A_{1}) f_{X_{1}} (x | A_{1}) + P (A_{2}) f_{X_{2}} (x | A_{2}) + \dots .

$f_{X_\infty}(x) = P(A_1) f_{X_1}(x|A_1) + P(A_2) f_{X_2}(x|A_2) + \dots.$

P (A_{1})

$P(A_1)$ est

\frac{1}{c}

$\frac{1}{c}$ et

f_{X_{1}} (x | A_{1})

$f_{X_1}(x|A_1)$ est

f (x)

$f(x)$ comme calculé auparavant. Remarque

P (A_{2})

$P(A_2)$ est

(1 - \frac{1}{c}) \frac{1}{c}

$\left(1-\frac{1}{c}\right)\frac{1}{c}$ où

1 - \frac{1}{c}

$1-\frac{1}{c}$ est la probabilité de rejet de

X_{1}

$X_1$ depuis seulement quand

X_{1}

$X_1$ est rejeté avons-nous une chance de choisir un

X_{2}

$X_2$ .

Et $f_{X_2}(x|A_2)$ est $f(x)$ trop parce que la deuxième étape n'est pas affectée par les étapes précédentes, sa probabilité devrait être la même que la première étape. Si cette explication ne vous convainc pas, nous pouvons également la travailler avec rigueur. Faites attention $X_2$ n'est pas défini lorsque $X_1$ est accepté (ou vous pouvez le définir comme un nombre arbitraire lorsque $X_1$ est acceptée si une valeur indéfinie vous met mal à l'aise), donc pour les probabilités concernant $X_2$ , seules les probabilités conditionnelles sont données $A_1^c$ ou des sous-ensembles de $A_1^c$ faire sens. Maintenant

\begin{aligned} f_{X_{2}} (x | A_{2}) = & \frac{P (A_{1}^{c}) f_{X_{2}} (x | A_{1}^{c}) P (A_{2} | X_{2} = x)}{P (A_{2})} \\ = & \frac{P (A_{1}^{c}) f_{X_{2}} (x | A_{1}^{c}) P (A_{2} | X_{2} = x)}{P (A_{1}^{c}) P (A_{2} | A_{1}^{c})} \\ = & \frac{f_{X_{2}} (x | A_{1}^{c}) P (A_{2} | X_{2} = x)}{P (A_{2} | A_{1}^{c})} \\ = & \frac{g (x) \cdot \frac{f (x)}{c g (x)}}{\frac{1}{c}} \\ = & f (x) . \end{aligned}

$\begin{aligned} f_{X_2}(x|A_2) =& \frac{P(A_1^c)f_{X_2}(x|A_1^c)P(A_2|X_2=x)}{P(A_2)} \\ =& \frac{P(A_1^c)f_{X_2}(x|A_1^c)P(A_2|X_2=x)}{P(A_1^c)P(A_2|A_1^c)} \\ =& \frac{f_{X_2}(x|A_1^c)P(A_2|X_2=x)}{P(A_2|A_1^c)} \\ =& \frac{g(x) \cdot \frac{f(x)}{cg(x)}}{\frac{1}{c}} \\ =& f(x). \end{aligned}$ Donc

\begin{aligned} f_{X_{\infty}} (x) = & P (A_{1}) f (x) + P (A_{2}) f (x) + \dots \\ = & (P (A_{1}) + P (A_{2}) + \dots) f (x) \\ = & (\frac{1}{c} + (1 - \frac{1}{c}) \frac{1}{c} + {(1 - \frac{1}{c})}^{2} \frac{1}{c} + \dots) f (x) \\ = & f (x) . \end{aligned}

$\begin{aligned} f_{X_\infty}(x) =& P(A_1) f(x) + P(A_2) f(x) + \dots \\ =& (P(A_1) + P(A_2) + \dots) f(x) \\ =& \left(\frac{1}{c} + \left(1-\frac{1}{c}\right)\frac{1}{c} + \left(1-\frac{1}{c}\right)^2\frac{1}{c} + \dots\right) f(x) \\ =& f(x). \end{aligned}$ Voilà le résultat souhaité. Remarque

P (A_{1}) + P (A_{2}) + \dots

$P(A_1) + P(A_2) + \dots$ = 1 a une signification intuitive, c'est-à-dire qu'un échantillon sera finalement accepté à un moment donné

i

$i$ .

— Cosyn
source