Puis-je sous-échantillonner un grand ensemble de données à chaque itération MCMC?

Problème: je veux effectuer un échantillonnage de Gibbs pour en déduire une partie postérieure sur un grand ensemble de données. Malheureusement, mon modèle n'est pas très simple et donc l'échantillonnage est trop lent. J'envisagerais des approches variationnelles ou parallèles, mais avant d'aller aussi loin ...

Question: Je voudrais savoir si je pourrais échantillonner au hasard (avec remplacement) à partir de mon ensemble de données à chaque itération de Gibbs, afin d'avoir moins d'instances à apprendre à chaque étape.

Mon intuition est que même si je change les échantillons, je ne changerais pas la densité de probabilité et donc l'échantillon de Gibbs ne devrait pas remarquer l'astuce. Ai-je raison? Y a-t-il des références de personnes ayant fait cela?

— alberto
source

Soit dit en passant: une autre idée serait de faire plusieurs analyses sur des sous-échantillons aléatoires du grand ensemble de données. De cette façon, vous pouvez également effectuer une validation croisée.

— conjectures

Je ne peux répondre à votre question exacte avec aucune autorité (bien que je soupçonne que vous augmenteriez simplement l'erreur d'approximation qui accompagne Monte Carlo), la triste vérité est que ce n'est qu'un aspect malheureux des analyses bayésiennes MCMC: elles sont de calcul coûteux. Le commentaire @conjectures est une excellente idée, mais ne va pas vraiment au cœur du problème: il est trop coûteux de tirer tous ces échantillons pour chaque individu. Ma recommandation est d'écrire votre propre code C pour le travail lourd (Rcpp en R, Cython en Python, etc.) et également de paralléliser (quand aucune dépendance de branche).

@conjectures Cela ressemble au sac de petits bootstraps de Michael Jordan.

— jaradniemi

Je suggérerais de changer votre échantillonneur pour éviter complètement l'augmentation variable latente. Vous n'aurez plus d'échantillonneur Gibbs, mais un algorithme Metropolis-Hastings avec une proposition basée sur une approximation normale de la probabilité devrait très bien fonctionner. Voir la section 16.4 de la 2e édition de Bayesian Data Analysis.

— jaradniemi

Il s'agit d'un domaine de recherche active que je ne connais pas assez bien pour vous résumer avec précision. Voir par exemple jmlr.org/proceedings/papers/v32/bardenet14.pdf et arxiv.org/pdf/1304.5299v4.pdf

— Andrew M

À propos des stratégies de sous-échantillonnage: envisagez par exemple d'avoir deux observations et et envisagez de mettre quelques a priori sur la moyenne et variance. Soit , le postérieur que nous voulons évaluer est Considérez maintenant une variable binomiale . Si nous avons choisi , si nous avons choisi , le nouveau postérieur est où $X_1 \sim N(\mu_1, \sigma_1^2)$ $X_2 \sim N(\mu_2,\sigma_2^2)$ $\theta = (\mu_1, \mu_2, \sigma_1^2, \sigma_2^2)$

f (θ | X_{1}, X_{2}) \propto f (X_{1} | θ) f (X_{2} | θ) f (θ)

$f(\theta|X_1, X_2) \propto f(X_1|\theta)f(X_2 | \theta)f(\theta)$

δ \sim B (0.5)

$\delta \sim B(0.5)$

δ = 0

$\delta=0$

X_{1}

$X_1$

δ = 1

$\delta =1$

X_{2}

$X_2$

f (θ, δ | X_{1}, X_{2}) \propto f (X_{1}, X_{2} | δ, θ) f (θ) f (δ)

$f(\theta, \delta|X_1, X_2) \propto f(X_1, X_2|\delta,\theta)f(\theta)f(\delta)$

f (X_{1}, X_{2} | δ, θ) = f (X_{1} | θ)^{δ} f (X_{2} | θ)^{1 - δ}

$f(X_1, X_2|\delta,\theta) = f(X_1|\theta)^{\delta} f(X_2|\theta)^{1-\delta}$ et . Maintenant, si vous voulez échantillonner avec une étape de Gibbs, vous devez calculer et parce que . Si vous utilisez autrement Metropolis Hastings, vous proposez un nouvel état et vous ne devez en calculer qu'un seul entre et , celui associé aux états proposés mais vous avoir à en calculer un entre et

f (δ) = 0.5

$f(\delta) = 0.5$

δ

$\delta$

f (X_{1} | θ)

$f(X_1|\theta)$

f (X_{2} | θ)

$f(X_2|\theta)$

P (δ = 1) = \frac{f (X_{1} | θ)}{f (X_{1} | θ) + f (X_{2} | θ)}

$P(\delta=1)= \frac{f(X_1|\theta) }{f(X_1|\theta) +f(X_2|\theta) }$

δ^{*}

$\delta^*$

f (X_{1} | θ)

$f(X_1|\theta)$

f (X_{2} | θ)

$f(X_2|\theta)$

f (X_{1} | θ)

$f(X_1|\theta)$

f (X_{2} | θ)

$f(X_2|\theta)$ même pour le dernier état accepté de . Alors je ne suis pas sûr que la métropole vous donnera un avantage. De plus, nous envisageons ici un processus bivarié, mais avec un processus multivarié, l'échantillonnage des peut être très compliqué avec la métropole.

δ

$\delta$

δ

$\delta$

— niandra82
source