Qu'est-ce que l'échantillonnage d'importance?

J'essaie d'apprendre l'apprentissage par renforcement et ce sujet me dérange vraiment. J'ai fait une introduction aux statistiques, mais je ne pouvais tout simplement pas comprendre ce sujet de manière intuitive.

— Tienanh Nguyen
source

Réponses:

L'échantillonnage d'importance est une forme d'échantillonnage à partir d'une distribution différente de la distribution d'intérêt afin d'obtenir plus facilement de meilleures estimations d'un paramètre à partir de la distribution d'intérêt. Généralement, cela fournira des estimations du paramètre avec une variance inférieure à celle qui serait obtenue en échantillonnant directement à partir de la distribution d'origine avec la même taille d'échantillon.

Il est appliqué dans différents contextes. En général, l'échantillonnage à partir de la distribution différente permet de prélever plus d'échantillons dans une partie de la distribution d'intérêt dictée par l'application (région importante).

Un exemple pourrait être que vous voulez avoir un échantillon qui comprend plus d'échantillons des queues de la distribution que ne le fournirait un échantillonnage aléatoire pur de la distribution d'intérêt.

L' article wikipedia que j'ai vu à ce sujet est trop abstrait. Il est préférable de regarder divers exemples spécifiques. Cependant, il inclut des liens vers des applications intéressantes telles que les réseaux bayésiens.

Un exemple d'échantillonnage d'importance dans les années 40 et 50 est une technique de réduction de la variance (une forme de la méthode de Monte Carlo). Voir par exemple le livre Monte Carlo Methods de Hammersley and Handscomb publié en tant que Methuen Monograph / Chapman and Hall en 1964 et réimprimé en 1966 et plus tard par d'autres éditeurs. La section 5.4 du livre couvre l' échantillonnage d'importance.

— Michael R. Chernick
source

Pour ajouter à cela: Dans RL, vous appliquez généralement un échantillonnage d'importance à la politique: par exemple, des actions d'échantillonnage à partir d'une politique d'exploration au lieu de la politique réelle que vous voulez vraiment échantillonner

— DaVinci

Cette réponse commence bien en expliquant ce que l' échantillonnage d'importance le fait, mais j'été déçu de constater qu'il ne répond en fait la question de l' échantillonnage d'importance est : comment ça marche?

— whuber

@whuber Mon objectif ici était d'expliquer le concept à un OP confus et de le diriger vers de la littérature. C'est un gros sujet et est utilisé dans des applications apparemment différentes. D'autres pourront peut-être mieux expliquer les détails en termes simples que moi. Je sais que lorsque vous décidez de répondre à une question, vous vous trompez et fournissez de beaux graphiques, parcourez les détails techniques en utilisant un langage simple. Ces postes satisfont presque toujours la communauté par sa clarté et son exhaustivité et j'ose dire satisfait également le PO au moins en partie. Peut-être que quelques phrases avec des équations suffiraient comme vous le suggérez.

— Michael R. Chernick

Peut-être que c'est mieux pour la communauté de répondre à la question plutôt que de simplement pointer vers d'autres sources ou même fournir des liens. Je pensais simplement que ce que j'avais fait était adéquat et le PO qui admet être un novice en statistiques devrait d'abord faire des efforts par lui-même.

— Michael R. Chernick

Vous avez raison. Je me demande, cependant, s'il serait possible en une ou deux phrases de plus - pas de mathématiques, pas de graphiques, presque pas de travail supplémentaire - de fournir une réponse à la question posée. Dans ce cas, la description devrait souligner que l'on est en train d' estimer l' espérance (et pas n'importe quel "paramètre"), puis peut-être souligner que puisque l'espérance résume un produit de valeurs et de probabilités, on obtient le même résultat en modifiant les probabilités ( à ceux d'une distribution facile à échantillonner) et en ajustant les valeurs pour compenser cela.

— whuber

L'échantillonnage d'importance est une méthode de simulation ou Monte Carlo destinée à l'approximation des intégrales. Le terme «échantillonnage» est quelque peu déroutant dans la mesure où il n'a pas l'intention de fournir des échantillons d'une distribution donnée.

L'intuition derrière l' échantillonnage d'importance est qu'une intégrale bien définie, comme peut être exprimé comme une attente pour une large gamme de distributions de probabilité:

je = \int_{X} h (X) ré X

$\mathfrak{I}=\int_\mathfrak{X} h(x)\,\text{d}x$

où

désigne la densité d'une distribution de probabilité et

est déterminé par

. (Notez que est généralement différent de .)En effet, le choix

je = E_{F} [H (X)] = \int_{X} H (X) F (X) ré X

$\mathfrak{I}=\mathbb{E}_f[H(X)]=\int_\mathfrak{X} H(x)f(x)\,\text{d}x$

f

$f$

H

$H$

h

$h$

f

$f$ $H(\cdot)$ $h(\cdot)$

conduit aux égalités

sous certaines restrictions sur le support de

, ce qui signifie

lorsque

H (X) = \frac{h (X)}{F (X)}

$H(x)=\dfrac{h(x)}{f(x)}$

H (x) f (x) = h (x)

$H(x)f(x)=h(x)$

I = E_{f} [H (X)]

$\mathfrak{I}=\mathbb{E}_f[H(X)]$

-

$-$

f

$f$

f (x) > 0

$f(x)>0$

h (x) \neq 0

$h(x)\ne 0$

-

$-$ . Ainsi, comme le souligne W. Huber dans son commentaire, il n'y a pas d'unicité dans la représentation d'une intégrale comme attente, mais au contraire un tableau infini de telles représentations, dont certaines sont meilleures que d'autres une fois un critère de comparaison est adopté. Par exemple, Michael Chernick mentionne avoir choisi

pour réduire la variance de l'estimateur.

f

$f$

Une fois cette propriété élémentaire comprise, l'implémentation de l'idée est de s'appuyer sur la loi des grands nombres comme dans les autres méthodes de Monte Carlo, c'est-à-dire simuler [via un générateur pseudo-aléatoire] un échantillon iid distribués à partir de et à utiliser l'approximation $(x_1,\ldots,x_n)$ $f$ qui

\hat{je} = \frac{1}{n} \sum_{je = 1}^{n} H (X_{je})

$\hat{\mathfrak{I}}=\frac{1}{n} \sum_{i=1}^n H(x_i)$

est un estimateur non biaisé de $\mathfrak{I}$
converge presque sûrement vers $\mathfrak{I}$

Selon le choix de la distribution , l'estimateur ci - dessus , peut ou non avoir une variance finie. Cependant, il existe toujours des choix de qui permettent une variance finie et même une variance arbitrairement petite (bien que ces choix puissent ne pas être disponibles dans la pratique). Et il existe aussi des choix de qui rendent l'échantillonnage d'importance estimateur une approximation très pauvre de . Cela inclut tous les choix où la variance devient infinie, même si un article récent de Chatterjee et Diaconis étudie comment comparer les échantillonneurs d'importance à la variance infinie. L'image ci-dessous est tirée de $f$ $\hat{\mathfrak{I}}$ $f$ $f$ $\hat{\mathfrak{I}}$ ${\mathfrak{I}}$ mon blog discussion de l'article et illustre la mauvaise convergence des estimateurs de variance infinie.

Échantillonnage d'importance avec distribution d'importance une distribution Exp (1) distribution cible une distribution Exp (1/10), et fonction d'intérêt . La vraie valeur de l'intégrale est . $h(x)=x$ $10$

[Ce qui suit est reproduit de notre livre Monte Carlo Statistical Methods .]

L'exemple suivant de Ripley (1987) montre pourquoi il peut être avantageux de générer à partir d'une distribution autre que la distribution (d'origine) apparaissant dans l'intégrale $f$ d'intérêt ou, en d'autres termes, de modifier la représentation d'une intégrale en tant qu'attente par rapport à une densité donnée.

\int_{X} h (X) F (X) ré X

$\int_\mathfrak{X} h(x) f(x)\,\text{d}x$

Exemple (probabilité de queue de Cauchy) Supposons que la quantité d'intérêt est la probabilité, , qu'une variable de Cauchy soit supérieure à , c'est-à-dire $p$ ${\mathcal{C}}(0,1)$ $2$ Lorsque est évaluée par la moyenne empirique

p = \int_{2}^{+ \infty} \frac{1}{π (1 + X^{2})} ré X .

$p = \int_2^{+\infty} \; {1\over \pi(1 + x^2)} \; \text{d}x \;.$

p

$p$

d'un échantillon iid

{\hat{p}}_{1} = \frac{1}{m} \sum_{j = 1}^{m} {je}_{X_{j} > 2}

${\hat{p}}_1 = {1\over m} \; \sum_{j=1}^m \; \mathbb{I}_{X_{j} > 2}$

X_{1}, \dots, X_{m}

$X_1,\ldots,X_m$

\sim

$\sim$

, la variance de cet estimateur est

(égal à

puisque

C (0, 1)

$\; \mathcal{C}(0,1)$

p (1 - p) / m

$p(1-p)/m$

0.127 / m

$0.127/m$

p = 0.15

$p=0.15$

Cet écart peut être réduit en tenant compte de la nature symétrique de , puisque la moyenne ${\mathcal{C}}(0,1)$

{\hat{p}}_{2} = \frac{1}{2 m} \sum_{j = 1}^{m} {je}_{| X_{j} | > 2}

${\hat{p}}_2 = {1\over 2m} \; \sum_{j=1}^m \; \mathbb{I}_{|X_{j}| > 2}$

p (1 - 2 p) / 2 m

$p(1-2p)/2m$

0.052 / m

$0.052/m$

$[2,+\infty)$ $p$ $p$

p = \frac{1}{2} - \int_{0}^{2} \frac{1}{π (1 + X^{2})} ré X,

$p = {1\over 2} - \int_0^2 \; {1\over \pi(1 + x^2)} \; \text{d}x \;,$

h (X) = 2 / π (1 + X^{2})

$h(X) = 2/\pi(1 + X^2)$

X \sim U_{[0, 2]}

$X \sim {\mathcal{U}}_{[0, 2]}$

p

$p$

{\hat{p}}_{3} = \frac{1}{2} - \frac{1}{m} \sum_{j = 1}^{m} h (U_{j})

${\hat{p}}_3 = {1\over 2} - {1\over m} \; \sum_{j=1}^m \; h(U_j)$

U_{j} \sim U_{[0, 2]}

$U_j \sim {\mathcal{U}}_{[0,2]}$

{\hat{p}}_{3}

${\hat{p}}_3$

(E [h^{2}] - E [h]^{2}) / m

$(\mathbb{E}[h^2] - \mathbb{E}[h]^2)/m$

0.0285 / m

$0.0285/m$

p

$p$

p = \int_{0}^{1 / 2} \frac{y^{- 2}}{π (1 + y^{- 2})} ré y,

$p = \int_0^{1/2} \; {y^{-2}\over \pi(1 + y^{-2})} \; \text{d}y \;,$

\frac{1}{4} h (Y) = 1 / 2 π (1 + Y^{2})

${1\over 4} \; h(Y) = 1/2\pi(1 + Y^2)$

[0, 1 / 2]

$[0,1/2]$

p

$p$

{\hat{p}}_{4} = \frac{1}{4 m} \sum_{j = 1}^{m} h ({Oui}_{j})

${\hat{p}}_4 = {1\over 4 m} \; \sum_{j=1}^m \; h(Y_j)$

Y_{j} \sim U_{[0, 1 / 2]}

$Y_j \sim {\mathcal{U}}_{[0,1/2]}$

{\hat{p}}_{4}

${\hat{p}}_{4}$

0.95 10^{- 4} / m

$0.95 \; 10^{-4}/m$

${\hat{p}}_1$ ${\hat p}_4$ $10^{-3}$ $\sqrt{1000} \approx 32$ $\hat p_1$ $\blacktriangleright$

— Xi'an
source

Merci @Xi 'an d'avoir pris la peine d'illustrer l'échantillonnage d'importance d'une manière que tout le monde peut apprécier et je pense plus que satisfaisant la demande de Bill Huber. +1

— Michael R. Chernick

Je tiens à noter qu'au départ, ce poste a été suspendu et grâce aux contributions de plusieurs personnes. Nous avons créé un fil conducteur.

— Michael R. Chernick

Christian, je tiens à exprimer mes remerciements et à exprimer un sentiment de privilège que vous partagiez activement avec nous ces excellents documents.

— whuber

Je veux juste ajouter un merci à Xi'an qui a eu la gentillesse d'apporter quelques modifications pour améliorer ma réponse, même s'il a donné la sienne.

— Michael R. Chernick

Cela doit être l'un des meilleurs messages sur stats.stackexchange. Merci d'avoir partagé!

— dohmatob