Peut-on estimer la taille d'un sous-ensemble X d'un ensemble A, en échantillonnant au hasard des sous-ensembles de A?

8

Laissez un ensemble fini et supposons que nous voulons calculer la taille de certains sous - ensemble . $A$ $X$

Motivation : si nous pouvons générer des éléments de uniformément au hasard, alors nous pouvons estimer la taille de par échantillonnage aléatoire. Autrement dit, nous prenons échantillons aléatoires de , si d'entre eux appartiennent à , alors . Malheureusement, pour ce que je fais, généralementest massif et(bien qu'énorme) est assez petit par rapport à. Donc, si j'essaie d'effectuer l'estimation ci-dessus, je suis susceptible d'obtenir , ce qui, bien qu'il ne soit pas inutile, n'est pas vraiment satisfaisant. $x$ $A$ $A$ $n$ $A$ $m$ $X$ $|X|/|A| \approx m/n$ $|A|$ $|X|$ $|A|$ $m=0$

Donc, j'ai une idée que j'espère accélérer ce processus. Au lieu de lancer des fléchettes sur un jeu de fléchettes massif, pourquoi je ne lance pas de balles? Autrement dit, au lieu d'éléments d' échantillonnage , nous sous - ensembles de l' échantillon . Je devrais sûrement être en mesure de déduire quelque chose sur la densité de dans partir de cette expérience. $x \in A$ $A$ $X$ $A$

Supposons que est équipé d'une métrique (je pense à la distance de Hamming). Pour tout soit soit la boule fermée de rayon dans centrée sur . Puisque nous pouvons échantillonner les éléments uniformément au hasard, nous pouvons échantillonner boules uniformément au hasard. $A$ $d(x,y)$ $y \in A$ $Y(y)=\{x \in A:d(x,y) \leq k\}$ $k$ $A$ $t$ $x \in A$ $k$ $Y_k(t)$

Supposons que (a) chaque $x \in A$ appartient exactement au même nombre de $k$ balles et (b) que chaque $k$ ball ait la même taille $r$ .

Supposons maintenant que je génère boules uniformément au hasard et supposons. Il semble que nous pouvons estimerd'une manière similaire, c'est-à-dire . $k$ $Y_1,Y_2,\ldots,Y_n$ $m=\sum_{i=1}^n |Y_i \cap X|$ $|A|$ $|X|/|A| \approx \frac{m}{rn}$

Mes questions sont donc:

Ai-je raison de dire que nous pouvons approximerpar ici? Si oui, je doute que je sois le premier à y penser, alors y a-t-il un nom pour cette méthode? $|X|$

J'ai effectivement testé cela sur certains sets, et cela semble correspondre à ce que je prétends.

Y a-t-il des inconvénients à cette approche? (par exemple, est-il moins précis? ai-je besoin de plus d'échantillons?)

estimation

— Douglas S. Stones
source

Je pense que vous avez commis une légère erreur dans le deuxième paragraphe: . Sinon, ce que vous faites est en train de réinventer l'intégration de Monte Carlo, eh bien, la version de sous-ensemble que je n'ai pas encore rencontrée, mais je ne serais pas surpris si c'est déjà fait.

| X | / | A | \approx m / n

$|X|/|A| \approx m/n$

— Raskolnikov

Merci, oui, c'était une erreur (en fait, il y en a eu une plus tard aussi).

— Douglas S. Stones,

3

OK, essayez de lire la page wikipedia pour l' intégration de Monte Carlo . Vous verrez qu'ils mentionnent une version stratifiée. La stratification est le terme technique dans les statistiques pour ce que vous essayez: subdiviser en sous-ensembles (sous-échantillons). Je suppose que les références peuvent vous aider davantage.

— Raskolnikov
source

3

Pour tout sous-ensemble $Y$ de $A$ , laisser $\pi(Y)$ être la probabilité que vous le sélectionniez dans votre échantillonnage. Vous avez décrit une variable aléatoire

f (Y) = | Y \cap X | .

$f(Y) = |Y \cap X|.$

Le total de $f$ dans la population de sous-ensembles de $A$ est

τ (X) = \sum_{Y \subset A} | Y \cap X | = 2^{| A | - 1} | X | .

$\tau(X) = \sum_{Y \subset A}|Y \cap X| = 2^{|A|-1}|X|.$

À partir d'un échantillon (avec remplacement) de sous-ensembles de $A$ , dire $Y_1, Y_2, \ldots, Y_m$ , l' estimateur Hansen-Hurwitz obtient une estimation non biaisée de ce total

{\hat{F}}_{π} = \sum_{je = 1}^{m} \frac{| {Oui}_{je} \cap X |}{π ({Oui}_{je})} .

$\hat{f}_\pi = \sum_{i=1}^{m} \frac{|Y_i \cap X|}{\pi(Y_i)} .$

En divisant cela par $2^{|A|-1}|A|$ estime donc $|X|/|A|$ . La variance de $\hat{f}_\pi$ est

Var ({\hat{F}}_{π}) = \frac{1}{m} \sum_{Oui \subset UNE} π (Oui) {(\frac{| Oui \cap X |}{π (Oui)} - 2^{| UNE | - 1} | X |)}^{2} .

$\text{Var}(\hat{f}_\pi) = \frac{1}{m} \sum_{Y \subset A} \pi(Y) \left( \frac{|Y \cap X|}{\pi(Y)} - 2^{|A|-1}|X| \right)^2\text{.}$

En divisant cela par $2^{2(|A|-1)}|A|^2$ donne la variance d'échantillonnage de $|X|/|A|$ . Donné $A$ , $X$ , et une procédure d'échantillonnage proposée (qui précise $\pi(Y)$ pour tous $Y \subset A$ ), choisissez une valeur de $m$ (la taille de l'échantillon) pour laquelle la variance d'estimation devient suffisamment faible.

— whuber
source

génial, je suppose que c'est la réponse! Je ne connaissais pas Hansen-Hurwitz ...

— Robin Girard

2

Je suppose que votre mesure est finie. WLOG ça peut être une probabilité.

La première procédure que vous mentionnez est la bonne vieille estimation de probabilité empirique :

$\hat{P}(Y\in X)= | \{ x_i \in X\} | /n$

(L'estimation montecarlo d'une intégration est également une bonne interprétation). En haute dimension cela ne fonctionne pas car $\{x_i\in X\}$ est susceptible d'être vide pour un A. typique. Comme vous l'avez remarqué, vous devez être régularisé. Le degré de sophistication dont vous avez besoin est lié à la dimension de votre espace.

Une idée est d'agrandir $X$ ou même donner un poids à $x_i$ ce n'est pas dans $X$ en fonction de sa distance à $X$ , c'est ce que j'appellerais une estimation de probabilité de noyau (par analogie avec une estimation de densité de noyau ):

$\hat{P}(Y\in X)= 1/(c(k) n)\sum_{i} K(d(x_i,X)/k)$

où $K$ est un noyau qui s'intègre à $1$ (dans votre cas, cela peut être $K(x)=1\{x\leq 1\}$ mais le noyau gaussien a de bonnes propriétés) et $c(k)$ une constante de normalisation bien choisie (c'est-à-dire telle que $\hat{P}(Y\in A)=1$ ).

— Robin Girard
source