Pourquoi, en moyenne, chaque échantillon bootstrap contient-il environ les deux tiers des observations?

42

Je courir à travers l'affirmation selon laquelle chaque échantillon de bootstrap (ou un arbre mis en sac) contiennent en moyenne environ $2/3$ des observations.

Je comprends que la chance de ne pas être sélectionné dans l' un des $n$ tire de $n$ échantillons avec le remplacement est $(1- 1/n)^n$ , ce qui correspond à environ $1/3$ chances de ne pas être sélectionné.

Qu'est - ce qu'une explication mathématique pour laquelle cette formule donne toujours $\approx 1/3$ ?

bootstrap

— xyzzy
source

10

Je crois que c’est l’origine du

.632

$.632$ dans la règle du bootstrap 632+.

— gung - Rétablir Monica

29

$\lim_{n\to\infty}(1- 1/n)^n=e^{-1}$
$e^{-1} =1/e \approx 1/3$

Cela ne fonctionne pas à très petit - par exemple à , . Il passe à , passe à et par . Une fois que vous avez dépassé , est une meilleure approximation que . $n$ $n=2$ $(1- 1/n)^n=\frac{1}{4}$ $\frac{1}{3}$ $n=6$ $0.35$ $n=11$ $0.366$ $n=99$ $n=11$ $\frac{1}{e}$ $\frac{1}{3}$

entrez la description de l'image ici

La ligne pointillée grise est à ; la ligne rouge et grise est à . $\frac{1}{3}$ $\frac{1}{e}$

Plutôt que de montrer une dérivation formelle (qui peut être facilement trouvée), je vais donner un aperçu (c'est-à-dire un argument intuitif et empirique) expliquant pourquoi un résultat (légèrement) plus général est valable:

e^{x} = lim_{n \to \infty} {(1 + x / n)}^{n}

$e^x = \lim_{n\to \infty} \left(1 + x/n \right)^n$

(Beaucoup de gens prennent cela pour la définition de , mais vous pouvez le prouver à partir de résultats plus simples, tels que définir comme .) $\exp(x)$ $e$ $\lim_{n\to \infty} \left(1 + 1/n \right)^n$

Fait 1: Ceci découle des résultats de base sur les puissances et l’exponentiation $\exp(x/n)^n=\exp(x)\quad$

Fait 2: Lorsque est grand, Ceci découle de l’extension en série de . $n$ $\exp(x/n) \approx 1+x/n\quad$ $e^x$

(Je peux donner des arguments plus complets pour chacun de ceux-ci mais je suppose que vous les connaissez déjà)

Remplacer (2) par (1). Terminé. (Pour que cela fonctionne comme un argument plus formel, cela prendrait un peu de travail, car il faudrait montrer que les termes restants dans le fait 2 ne deviennent pas assez grands pour causer un problème lorsqu'ils sont portés au pouvoir . Mais ceci est de l'intuition plutôt que la preuve formelle.) $n$

[Vous pouvez également prendre la série de Taylor pour au premier ordre. Une deuxième approche facile consiste à prendre le développement binomial de et à prendre la limite terme à terme, en montrant qu’il donne les termes de la série pour .] $\exp(x/n)$ $\left(1 + x/n \right) ^n$ $\exp(x/n)$

Donc si , il suffit de remplacer . $e^x = \lim_{n\to \infty} \left(1 + x/n \right) ^n$ $x=-1$

Immédiatement, nous avons le résultat en haut de cette réponse, $\lim_{n\to\infty}(1- 1/n)^n=e^{-1}$

Comme le souligne gung dans les commentaires, le résultat de votre question est l’origine de la règle du bootstrap 632

par exemple voir

Efron, B. et R. Tibshirani (1997),
"Améliorations apportées à la validation croisée: la méthode .632+ Bootstrap",
Journal de l'American Statistical Association, vol. 92, n ° 438. (juin), p. 548-560

— Glen_b
source

41

Plus précisément, chaque échantillon bootstrap (ou arbre ensaché) contiendra de l'échantillon. $1-\frac{1}{e} \approx 0.632$

Voyons comment fonctionne le bootstrap. Nous avons un échantillon original avec éléments. Nous tirons les articles avec remplacement de cet ensemble original jusqu'à ce que nous ayons un autre ensemble de taille . $x_1, x_2, \ldots x_n$ $n$ $n$

Il en résulte que la probabilité de choisir un élément (disons, ) lors du premier tirage est de . Par conséquent, la probabilité de ne pas choisir cet élément est . C'est juste pour le premier tirage au sort; il y a un total de tirages, qui sont tous indépendants, de sorte que la probabilité de ne jamais choisir cet élément sur l'un des tirages est de . $x_1$ $\frac{1}{n}$ $1 - \frac{1}{n}$ $n$ $(1-\frac{1}{n})^n$

Maintenant, pensons à ce qui se passe lorsque devient de plus en plus grand. On peut prendre la limite quand va vers l'infini, en utilisant les astuces de calcul habituelles (ou Wolfram Alpha): $n$ $n$

lim_{n \to \infty} (1 - \frac{1}{n})^{n} = \frac{1}{e} \approx 0.368

$\lim_{n \rightarrow \infty} \big(1-\frac{1}{n}\big)^n = \frac{1}{e} \approx 0.368$

C'est la probabilité qu'un article ne soit pas choisi. Soustrayez-le de l'un pour trouver la probabilité que l'élément soit choisi, ce qui vous donne 0,632.

— Matt Krause
source

5

L'échantillonnage avec remplacement peut être modélisé comme une séquence d'essais binomiaux où "succès" est une instance en cours de sélection. Pour un ensemble de données original de instances, la probabilité de "succès" est de et la probabilité de "défaillance" est de . Pour une taille d'échantillon de , les chances de sélectionner une instance exactement fois sont données par la distribution binomiale: $n$ $1/n$ $(n-1)/n$ $b$ $x$

P (x, b, n) = (\frac{1}{n})^{x} (\frac{n - 1}{n})^{b - x} (\binom{b}{x})

$P(x,b,n) = \bigl(\frac{1}{n}\bigr)^{x} \bigl(\frac{n-1}{n}\bigr)^{b-x} {b \choose x}$

Dans le cas spécifique d'un échantillon bootstrap, la taille de l'échantillon est égale au nombre d'instances . Laissant approcher l’infini, nous obtenons: $b$ $n$ $n$

lim_{n \to \infty} (\frac{1}{n})^{x} (\frac{n - 1}{n})^{n - x} (\binom{n}{x}) = \frac{1}{e x!}

$\lim_{n \rightarrow \infty} \bigl(\frac{1}{n}\bigr)^{x} \bigl(\frac{n-1}{n}\bigr)^{n-x} {n \choose x} = \frac{1}{ex!}$

Si notre jeu de données d'origine est volumineux, nous pouvons utiliser cette formule pour calculer la probabilité qu'une instance soit sélectionnée fois exactement dans un échantillon bootstrap. Pour , la probabilité est de , soit environ . La probabilité qu'une instance soit échantillonnée au moins une fois est donc de . $x$ $x = 0$ $1/e$ $0.368$ $1 - 0.368 = 0.632$

Inutile de dire que j'ai minutieusement dérivé cette technique en utilisant un stylo et du papier et que je n'ai même pas envisagé d'utiliser Wolfram Alpha.

— Retsreg
source

4

En ajoutant simplement à la réponse de @ retsreg, cela peut également être démontré assez facilement via une simulation numérique dans R:

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632

— vonjd
source

1

Cela peut être facilement vu en comptant. Combien total d'échantillons possibles? n ^ n. Combien ne contiennent pas une valeur spécifique? (n-1) ^ n. Probabilité qu'un échantillon n'ait pas de valeur spécifique - (1-1 / n) ^ n, ce qui correspond à environ 1/3 de la limite.

— Maxim Khesin
source