Résultats sur les estimations de Monte Carlo produites par échantillonnage d'importance

J'ai travaillé sur l'échantillonnage d'importance assez étroitement au cours de la dernière année et j'ai quelques questions ouvertes que j'espérais obtenir de l'aide.

D'après mon expérience pratique des schémas d'échantillonnage d'importance, ils peuvent occasionnellement produire des estimations fantastiques à faible variance et à faible biais. Plus fréquemment, cependant, ils ont tendance à produire des estimations à forte erreur qui présentent une faible variance d'échantillon mais un biais très élevé.

Je me demande si quelqu'un peut expliquer exactement quels types de facteurs affectent la validité des estimations d'échantillonnage d'importance? En particulier, je me demande:

1) Les estimations par échantillonnage d'importance sont-elles garanties de converger vers le résultat correct lorsque la distribution de biais a le même support que la distribution d'origine? Si oui, pourquoi cela semble-t-il prendre si longtemps dans la pratique?

2) Existe-t-il une relation quantifiable entre l'erreur dans une estimation produite par échantillonnage d'importance et la "qualité" de la distribution de biais (c'est-à-dire dans quelle mesure elle correspond à la distribution de variance nulle)

3) En partie basé sur 1) et 2) - existe-t-il un moyen de quantifier `` combien '' vous devez savoir sur une distribution avant d'être mieux en utilisant un plan d'échantillonnage d'importance qu'une simple méthode de Monte Carlo.

monte-carlo information-theory importance-sampling

— Berk U.
source

Réponses:

L'échantillonnage d'importance a exactement la même validation que l'approche Monte Carlo de base. À la base, c'est le Monte Carlo de base . En effet, il s'agit simplement d'un changement de mesure de référence, passant de à

\int h (x) f (x) d x

$\int h(x) f(x) \text{d}x$

Ainsi, la convergence est garantie par la loi des grands nombres dans les deux cas, c'est-à-dire si vous simulez à partir de

ou à partir de

. De plus, si le terme

\int h (x) \frac{f (x)}{g (x)} g (x) d x

$\int h(x) \dfrac{f(x)}{g(x)} g(x) \text{d}x$

f

$f$

g

$g$

est fini, le théorème central limite s'applique également et la vitesse de convergence est

\int h^{2} (x) \frac{f^{2} (x)}{g (x)} d x

$\int h^2(x) \dfrac{f^2(x)}{g(x)} \text{d}x$

. Si cela "prend si longtemps en pratique", c'est parce que le facteur de variance ci-dessus dans le CLT peut être assez important. Mais, et j'insiste, la vitesse est la même qu'avec le Monte Carlo régulier,

O (1 / \sqrt{n})

$\text{O}(1/\sqrt{n})$

O (1 / \sqrt{n})

$\text{O}(1/\sqrt{n})$

La qualité d'une distribution d'échantillonnage d'importance est donc directement liée au facteur de variance ci-dessus, qui passe à zéro pour la "distribution de variance nulle" proportionnelle à . $|h(x)|f(x)$

— Xi'an
source

Je soupçonne, étant donné que le PO rapporte des estimateurs de petite variance qui sont biaisés, mais semblent avoir une petite variance, qu'il peut se poser des questions sur l'échantillonnage d'importance auto-normalisée. Voir la diatribe de Radford Neal sur l'estimateur de la moyenne harmonique pour un bon exemple, qui prend ce qui serait une estimation d'échantillonnage d'importance avec une variance de 0, et renvoie un non-sens. Je ne suis pas certain que cela ne se produise jamais dans un échantillonnage d'importance régulière, mais c'est certainement rare.

— deinst

Même si ce n'était pas l'intention du PO, je serais intéressé par quelques conseils sur la façon de déterminer quand l'auto-normalisation va terriblement mal.

— deinst

@deinst Je n'étais pas au courant de la procédure d'auto-normalisation et de ses pièges alors merci pour ça! En tout cas, je pense que les problèmes peuvent être pertinents pour les propriétés de mon schéma IS, donc je voudrais explorer cette idée un peu plus si l'un d'entre vous a des idées.

— Berk U.22

@deinst Le schéma IS que j'utilise est conçu pour fonctionner sans une distribution d'échantillonnage

à portée de main. Le schéma utilise d'abord une procédure MCMC pour simuler

points

partir de la distribution de variance nulle

. Ensuite, il utilise l'estimation de la densité du noyau sur

g (x)

$g(x)$

M

$M$

x_{1} . . x_{M}

$x_1..x_M$

g^{*} (x) = h (x) f (x) / \int h (x) f (x) d x

$g^*(x) = h(x)f(x)/\int{h(x)f(x)dx}$

pour produire

. Avec

en main, je peux alors échantillonner

nouveaux points

forme mon estimation IS sous la forme $ \ sum {h (y_i) f (y_i) / hat {g (y_i)} $

x_{1} . . x_{M}

$x_1..x_M$

\hat{g (x)}

$\hat{g(x)}$

\hat{g (x)}

$\hat{g(x)}$

N

$N$

y_{1} . . . y_{N}

$y_1...y_N$

— Berk U.

L'utilisation d'une estimation non paramétrique introduit une variabilité d'un ordre supérieur à la variabilité de Monte Carlo, donc je ne le conseillerais pas.

— Xi'an

$f$ $g$

δ = \int h (x) f (x) d x

$\delta=\int h(x)f(x)\text{d}x$

x_{1}, \dots, x_{n}

$x_1,\ldots,x_n$

g (x)

$g(x)$

\hat{δ} = \frac{\sum_{i = 1}^{n} h (x) f (x) / g (x)}{\sum_{i = 1}^{n} f (x) / g (x)} .

$\hat{\delta}=\frac{\sum_{i=1}^n h(x)f(x)/g(x)}{\sum_{i=1}^n f(x)/g(x)}.$

X / Y

$X/Y$

ω (X) = f (x) / g (X)

$\omega(X)=f(x)/g(X)$

E_{g} (\hat{δ}) \approx δ + \frac{δ {Var}_{g} (ω (X)) - {Cov}_{g} (ω (X), h (X) ω (X))}{n}

$E_g(\hat{\delta})\approx \delta + \frac{\delta \text{Var}_g(\omega(X))-\text{Cov}_g(\omega(X),h(X)\omega(X))}{n}$

{Var}_{g} (\hat{δ}) \approx \frac{{Var}_{g} (h (X) ω (X)) - 2 δ {Cov}_{g} (ω (X), h (X) ω (X)) + δ^{2} {Var}_{g} (ω (X))}{n} .

$\text{Var}_g(\hat{\delta})\approx\frac{\text{Var}_g(h(X)\omega(X))-2\delta\text{Cov}_g(\omega(X),h(X)\omega(X))+\delta^2\text{Var}_g(\omega(X))}{n}.$

$\text{Var}_g(\omega(X))$ $\text{Cov}_g(\omega(X),h(X)\omega(X))$

— deinst
source

X / Y

$X/Y$

G

$G$

@BerkUstun Le G majuscule est une faute de frappe pour un petit que je vais corriger rapidement. X / Y n'est qu'un rapport générique de variables aléatoires. IIRC tout cela est expliqué dans le livre de Monte Carlo de Liu (quelque chose de scientifique dans le titre.)

— deinst

@deinst: Excellent point! En effet, les propriétés des versions auto-normalisées sont très différentes de celles de l'estimateur d'échantillonnage d'importance non biaisée. En théorie, il faudrait un échantillonneur d'importance distinct pour estimer le dénominateur.

— Xi'an