Distributions sur des sous-ensembles de

Je me demande s'il y a toutes sortes de distributions standard sur des sous - ensembles d'entiers $\{1, 2, ..., J\}$ . De manière équivalente, nous pourrions exprimer cela comme une distribution sur un vecteur de longueur $J$ de résultats binaires, par exemple si $J = 5$ alors $\{1, 3, 5\}$ correspond au vecteur $(1, 0, 1, 0, 1)$ .

Idéalement, ce que je recherche, c'est une distribution $\nu_\theta (\cdot)$ , provenant d'une famille indexée par un paramètre de dimension finie $\theta$ , qui répartirait sa masse de telle manière que deux vecteurs binaires $r_1$ et $r_2$ auront une probabilité similaire si ils sont "proches", c'est-à-dire $r_1 = (0, 0, 1, 0, 1)$ et $r_2 = (0, 0, 1, 1, 1)$ ont des probabilités similaires. Vraiment, ce que j'espère faire, c'est mettre un a priori sur $\theta$ telle sorte que si je sais que $\nu_\theta (r_1)$ est assez grand, alors $\nu_\theta (r_2)$ est probablement grand par rapport à des vecteurs éloignés de $r_1$ .

$d_\theta$ $\{0, 1\}^J$ $\nu_\theta (r) \propto \exp (-d_\theta (r, \mu))$ $\exp\left\{-\|r - \mu\|^2 / (2 \sigma^2)\right\}$

bayesian discrete-data

— gars
source

L'échantillonnage d'un sous-ensemble est un problème fondamental de la méthodologie d'enquête.

— Stéphane Laurent

@ Stéphane bien sûr, mais je pense que mon problème diffère en ce que j'ai une structure supplémentaire souhaitée que je voudrais que ma distribution reflète. Peut-être que la formulation de la question en termes de sous-ensembles était une mauvaise idée car j'ai une vague notion de travail à distance pour moi.

— gars

Vouliez-vous écrire "... alors

est probablement petit ..."? En ce qui concerne la constante de normalisation, envisagez d'utiliser la distance de Hamming pour la métrique: pour les familles de distributions à l'échelle de l'emplacement, vous pouvez calculer cette constante comme la somme de seulement

termes. De plus, toutes ces familles qui répondent à vos critères peuvent être décrites par seulement paramètres discrets (pour l'emplacement) et paramètres continus.

v_{θ} (r_{2})

$v_\theta(r_2)$

J + 1

$J+1$

J

$J$

J

$J$

— whuber

@whuber non, je voulais dire grand. Je veux que

distribue sa masse autour de points proches les uns des autres. Il aurait probablement été plus approprié de formuler la question comme mettant une distribution sur les sommets d'un hypercube. J'avais considéré la distance de Hamming (qui, je suppose, est la même que

dans mon cas); Je voudrais probablement le modifier comme, et je suppose qu'il faudrait probablement faire quelques MCMC pour échantillonner à partir d'une telle distribution.

ν_{θ} (\cdot)

$\nu_\theta (\cdot)$

L_{1}

$L_1$

\sum | \frac{r_{i} - μ_{i}}{σ_{i}} |

$\sum \left|\frac{r_i - \mu_i}{\sigma_i}\right|$

— gars

Oh, je vois maintenant. Mais ce n'est pas ce que vous avez dit à l'origine. Par exemple, dans votre caractérisation, si est grand, et est l'ensemble des vecteurs "loin" de , et est tout vecteur qui n'est pas dans , alors doit également "probablement" être grand. Mais «pas loin» et «près» ne signifient pas exactement les mêmes choses. Il serait plus simple - et plus cohérent en interne - de reformuler la condition comme vous l'avez fait dans votre commentaire. Mais non, vous n'avez pas besoin de MCMC pour échantillonner à partir de distributions à l'échelle de l'emplacement basées sur les distances de Hamming: il existe des moyens beaucoup plus efficaces.

ν (r_{1})

$\nu(r_1)$

R

$R$

r_{1}

$r_1$

r_{2}

$r_2$

R

$R$

ν (r_{2})

$\nu(r_2)$

— whuber

Vous pouvez privilégier les familles d'emplacement basées sur la distance de Hamming , en raison de leur richesse, de leur flexibilité et de leur facilité de calcul.

Notation et définitions

Rappelons que dans un module libre de dimension finie à base , la distance de Hamming entre deux vecteurs et est le nombre de places où $V$ $\left(\mathbf{e}_1, \mathbf{e}_2, \ldots, \mathbf{e}_J\right)$ $\delta_H$ $\mathbf{v}=v_1 \mathbf{e}_1 + \cdots + v_J\mathbf{e}_J$ $\mathbf{w}=w_1 \mathbf{e}_1 + \cdots + w_J\mathbf{e}_J$ $i$ . $v_i \ne w_i$

Étant donné n'importe quelle origine , la distance de Hamming partitionne en sphères , , où . Lorsque l'anneau de masse a éléments, a $\mathbf{v}_0\in V$ $V$ $S_i(\mathbf{v}_0)$ $i=0, 1, \ldots, J$ $S_i(\mathbf{v}_0) = \{\mathbf{w}\in V\ |\ \delta_H(\mathbf{w}, \mathbf{v}_0) = i\}$ $n$ $V$ éléments et ontelements. (Cela découle immédiatement de l'observation que les éléments dediffèrent deà exactementendroits - dont il existe despossibilités- et qu'il y a, indépendamment,choix de valeurs pour chaque lieu.) $n^J$ $S_i(\mathbf{v})$ $\binom{J}{i}\left(n-1\right)^i$ $S_i(\mathbf{v})$ $\mathbf{v}$ $i$ $\binom{J}{i}$ $n-1$

La traduction affine en agit naturellement sur ses distributions pour donner des familles de localisations. Plus précisément, lorsque est une distribution sur (ce qui signifie un peu plus que , pour tous , et ) et est n'importe quel élément de , alors est également une distribution où $V$ $f$ $V$ $f:V\to [0,1]$ $f(\mathbf{v})\ge 0$ $\mathbf{v} \in V$ $\sum_{\mathbf{v}\in V}f(\mathbf{v})=1$ $\mathbf{w}$ $V$ $f^{(\mathbf{w})}$

f^{(w)} (v) = f (v - w)

$f^{(\mathbf{w})}(\mathbf{v}) = f(\mathbf{v}-\mathbf{w})$

pour tous . Une situation familiale des distributions est invariante par cette action: implique pour tous . $\mathbf{v}\in V$ $\Omega$ $f\in \Omega$ $f^{(\mathbf{v})}\in \Omega$ $\mathbf{v}\in V$

Construction

Cela nous permet de définir des familles de distributions potentiellement intéressantes et utiles en spécifiant leurs formes dans un vecteur fixe , que pour plus de commodité je considérerai comme , et traduire ces "distributions génératrices" sous l'action de pour obtenir la famille complète . Pour obtenir la propriété souhaitée que devrait avoir des valeurs comparables aux points voisins, il suffit d'exiger cette propriété de toutes les distributions génératrices. $\mathbf{v}$ $\mathbf{0} = (0,0,\ldots,0)$ $V$ $\Omega$ $f$

Pour voir comment cela fonctionne, construisons la famille d'emplacement de toutes les distributions qui diminuent avec l'augmentation de la distance. Étant donné que seules les distances de Hamming sont possibles, considérez toute séquence décroissante de nombres réels non négatifs = . Ensemble $J+1$ $\mathbf{a}$ $0 \ne a_0 \ge a_1 \ge \cdots \ge a_J \ge 0$

A = \sum_{i = 0}^{J} (n - 1)^{i} (\binom{J}{i}) a_{i}

$A = \sum_{i=0}^J (n-1)^i\binom{J}{i} a_i$

et définir la fonction par $f_\mathbf{a}:V\to [0,1]$

f_{a} (v) = \frac{a_{δ_{H} (0, v)}}{A} .

$f_\mathbf{a}(\mathbf{v}) = \frac{a_{\delta_H(\mathbf{0},\mathbf{v})}}{A}.$

Puis, comme il est facile de vérifier, est une distribution sur . De plus, si et seulement si est un multiple positif de (comme vecteurs dans ). Ainsi, si nous le souhaitons, nous pouvons standardiser à . $f_\mathbf{a}$ $V$ $f_\mathbf{a} = f_{\mathbf{a}'}$ $\mathbf{a}'$ $\mathbf{a}$ $\mathbb{R}^{J+1}$ $\mathbf{a}$ $a_0=1$

En conséquence, cette construction donne un paramétrage explicite de toutes ces distributions invariantes de localisation qui diminuent avec la distance de Hamming: toute distribution de ce type est sous la forme pour une séquence et un vecteur . $f_\mathbf{a}^{(\mathbf{v})}$ $\mathbf{a} = 1 \ge a_1 \ge a_2 \ge \cdots \ge a_J \ge 0$ $\mathbf{v}\in V$

Ce paramétrage peut permettre une spécification pratique des a priori: factorisez-les en un a priori sur l'emplacement et un a priori sur la forme . (Bien sûr, on pourrait envisager un ensemble plus important de prieurs où l'emplacement et la forme ne sont pas indépendants, mais ce serait une entreprise plus compliquée.) $\mathbf{v}$ $\mathbf{a}$

Génération de valeurs aléatoires

Une façon d'échantillonner à partir de est par étapes en le factorisant dans une distribution sur le rayon sphérique et une autre distribution conditionnelle à chaque sphère: $f_\mathbf{a}^{(\mathbf{v})}$

Dessinez un indice partir de la distribution discrète sur donné par les probabilités , où est défini comme précédemment . $i$ $\{0,1,\ldots,J\}$ $\binom{J}{i}(n-1)^i a_i / A$ $A$
L'index correspond à l'ensemble des vecteurs différents de à exactement endroits. Par conséquent, sélectionnez ceux que place parmi les sous-ensembles possibles, en donnant à chaque probabilité égale. (Ceci est juste un échantillon de Subscripts sur sans remplacement.) Que ce sous - ensemble de lieux écrire . $i$ $\mathbf{v}$ $i$ $i$ $\binom{J}{i}$ $i$ $J$ $i$ $I$
Dessinez un élément en sélectionnant indépendamment une valeur uniformément dans l'ensemble de scalaires non égal à pour tout et sinon définissez . De manière équivalente, créez un vecteur en sélectionnant uniformément au hasard parmi les scalaires non nuls lorsque et en définissant autrement . Définissez . $\mathbf{w}$ $w_j$ $v_j$ $j\in I$ $w_j=v_j$ $\mathbf{u}$ $u_j$ $j\in I$ $u_j=0$ $\mathbf{w} = \mathbf{v} + \mathbf{u}$

L'étape 3 n'est pas nécessaire dans le cas binaire.

Exemple

Voici une Rimplémentation à illustrer.

rHamming <- function(N=1, a=c(1,1,1), n=2, origin) {
  # Draw N random values from the distribution f_a^v where the ground ring
  # is {0,1,...,n-1} mod n and the vector space has dimension j = length(a)-1.
  j <- length(a) - 1
  if(missing(origin)) origin <- rep(0, j)

  # Draw radii `i` from the marginal distribution of the spherical radii.
  f <- sapply(0:j, function(i) (n-1)^i * choose(j,i) * a[i+1])
  i <- sample(0:j, N, replace=TRUE, prob=f)

  # Helper function: select nonzero elements of 1:(n-1) in exactly i places.
  h <- function(i) {
    x <- c(sample(1:(n-1), i, replace=TRUE), rep(0, j-i))
    sample(x, j, replace=FALSE)
  }

  # Draw elements from the conditional distribution over the spheres
  # and translate them by the origin.
  (sapply(i, h) + origin) %% n
}

À titre d'exemple de son utilisation:

test <- rHamming(10^4, 2^(11:1), origin=rep(1,10))
hist(apply(test, 2, function(x) sum(x != 0)))

Cela a pris seconde pour dessiner éléments iid de la distribution où , (le cas binaire), et diminue de façon exponentielle. $0.2$ $10^4$ $f_{\mathbf{a}}^{(\mathbf{v})}$ $J=10$ $n=2$ $\mathbf{v}=(1,1,\ldots,1)$ $\mathbf{a}=(2^{11},2^{10},\ldots,2^1)$

(Cet algorithme ne nécessite pas que diminue; ainsi, il générera des variations aléatoires à partir de n'importe quelle famille d'emplacement, pas seulement celles unimodales.) $\mathbf{a}$

— whuber
source

Merci pour cela! La distance de Hamming dans ce cas est juste dans limitée aux sommets du cube; dans ce contexte, la distance de Hamming agit de manière isotrope. S'éloigner de cela, je suppose, complique ces choses parce que j'ai plus de valeurs différentes pour ma mesure de distance? Avez-vous des commentaires généraux à ce sujet?

L_{1}

$L_1$

R^{J}

$\mathbb R^J$

J

$J$

— gars

Oui: un choix de fonctions de distance dépendra de ce que représentent les valeurs dans . Parce que la question a été formulée de manière abstraite, nous n'avons vraiment rien à faire pour nous forger une opinion sur ce qui serait un bon choix. La distance de Hamming serait appropriée pour les valeurs nominales et peut-être aussi dans d'autres cas, mais d'autres distances pourraient mieux fonctionner lorsqu'il existe un sens inhérent de la distance pour l'ensemble . Dans le cas binaire , il est difficile de généraliser les distances de Hamming: elles sont déjà assez générales.

{1, 2, \dots, n}

$\{1,2,\ldots,n\}$

{1, 2, \dots, n}

$\{1,2,\ldots,n\}$

n = 2

$n=2$

— whuber

Un échantillon d'un processus ponctuel k-déterminant modélise une distribution sur des sous-ensembles qui encourage la diversité, de sorte que des éléments similaires sont moins susceptibles de se produire ensemble dans l'échantillon. Reportez-vous à l'échantillonnage du processus ponctuel déterminant K par Alex Kulesza, Ben Taskar.

— corbillard
source