Distance statistique entre pièce uniforme et pièce biaisée

Soit $U$ ait la distribution uniforme sur $n$ bits et soit $D$ soit la répartition sur $n$ bits avec les bits sont indépendants et chaque bit est $1$ avec une probabilité de $1/2-\epsilon$ . Est-il vrai que la distance statistique entre $D$ et $U$ est $\Omega(\epsilon \sqrt{n})$ , lorsque $n \le 1/\epsilon^2$ ?

pr.probability

— Manu
source

Oui. La distance statistique entre

U

$U$ et

V

$V$ est au moins

{P r}_{U} (\sum x_{i} > n / 2) - {P r}_{D} (\sum x_{i} > n / 2)

$\mathrm{Pr}_U(\sum x_i > n/2) - \mathrm{Pr}_D(\sum x_i > n/2)$ , qui est

Ω (ε \sqrt{n})

$\Omega(\varepsilon \sqrt{n})$ ; voir par exemple la réponse de matus ici:cstheory.stackexchange.com/questions/14471/…

— Yury

Merci. Peut-être expliquer comment obtenir cela de ce que Matus a écrit dans une réponse que je peux accepter?

— Manu

Peut-être utile: cstheory.stackexchange.com/q/22328/5038 , stats.stackexchange.com/q/17405/2921 .

— DW

En ce qui concerne la réponse de Matus, vous pouvez faire mieux que l'inégalité de Slud; voir (2.13,2.14) dans arxiv.org/abs/1606.08920

— Aryeh

Réponses:

$x_1,\dots, x_n$ $U$ $D$ $\Pr_U\left(\sum x_i \geq t\right) - \Pr_D\left(\sum x_i \geq t\right)$ $t$ $t = n/2 + \sqrt{n}$

Notez que pour une constante absolue . Si , alors la distance statistique est au moins , et nous avons terminé. Nous supposons donc ci-dessous que . $\Pr_U\left(\sum x_i \geq t\right) \geq c_1$ $c_1 > 0$ $\Pr_D\left(\sum x_i \geq t\right) \leq c_1/2$ $c_1/2$ $\Pr_D\left(\sum x_i \geq t\right) \geq c_1/2$

Soit pour les variables aléatoires iid Bernoulli avec . Notre objectif est de prouver que . Par le théorème de la valeur moyenne, pour certains . Maintenant, nous allons prouver que ; cela impliquera que la distance statistique souhaitée est au moins , comme requis. $f(s) = \Pr\left(\sum x_i \geq t\right)$ $x_1,\dots, x_n$ $\Pr(x_i = 1) = 1/2-s$ $f(0) - f(\varepsilon) = \Omega(\varepsilon \sqrt{n})$

f (0) - f (ε) = - ε f^{'} (ξ),

$f(0) - f(\varepsilon) = -\varepsilon f'(\xi),$

ξ \in (0, ε)

$\xi \in (0, \varepsilon)$

- f^{'} (ξ) \geq Ω (\sqrt{n})

$-f'(\xi) \geq \Omega(\sqrt{n})$

Ω (\sqrt{n} ε)

$\Omega(\sqrt{n} \varepsilon)$

Écriture, et Notez que Donc,

f (ξ) = \sum_{k \geq t} (\binom{n}{k}) {(\frac{1}{2} - ξ)}^{k} {(\frac{1}{2} + ξ)}^{n - k},

$f(\xi) = \sum_{k\geq t} \binom{n}{k} \left(\frac12 - \xi\right)^k \left(\frac12+\xi\right)^{n-k},$

\begin{aligned} f^{'} (ξ) & = \sum_{k \geq t} (\binom{n}{k}) (- k {(\frac{1}{2} - ξ)}^{k - 1} {(\frac{1}{2} + ξ)}^{n - k} + (n - k) {(\frac{1}{2} - ξ)}^{k} {(\frac{1}{2} + ξ)}^{n - k - 1}) \\ = - \sum_{k \geq t} (\binom{n}{k}) {(\frac{1}{2} - ξ)}^{k} {(\frac{1}{2} + ξ)}^{n - k} \frac{k / 2 + k ξ - (n - k) / 2 + (n - k) ξ}{(1 / 2 - ξ) (1 / 2 + ξ)} . \end{aligned}

$\begin{align} f'(\xi) &= \sum_{k\geq t} \binom{n}{k} \left(-k \left(\frac12 - \xi\right)^{k-1} \left(\frac12+\xi\right)^{n-k} + (n-k) \left(\frac12 - \xi\right)^{k} \left(\frac12+\xi\right)^{n-k-1}\right) \\ &= -\sum_{k\geq t} \binom{n}{k} \left(\frac12 - \xi\right)^{k} \left(\frac12+\xi\right)^{n-k}\frac{k/2 + k\xi - (n-k)/2 + (n-k)\xi}{(1/2 - \xi)(1/2 +\xi)}. \end{align}$

\frac{k / 2 + k ξ - (n - k) / 2 + (n - k) ξ}{(1 / 2 - ξ) (1 / 2 + ξ)} = \frac{(2 k - n) / 2 + n ξ}{(1 / 2 - ξ) (1 / 2 + ξ)} \geq 2 (2 t - n) = 4 \sqrt{n} .

$\frac{k/2 + k\xi - (n-k)/2 + (n-k)\xi}{\left(1/2 - \xi\right)\left(1/2 +\xi\right)} = \frac{(2k-n)/2 + n\xi}{(1/2 - \xi)(1/2 +\xi)} \geq 2(2t - n) = 4\sqrt{n}.$

\begin{aligned} - f^{'} (ξ) & \geq 4 \sqrt{n} \sum_{k \geq t} (\binom{n}{k}) {(\frac{1}{2} - ξ)}^{k} {(\frac{1}{2} + ξ)}^{n - k} \\ = 4 \sqrt{n} f (ξ) \geq 4 \sqrt{n} f (ε) \geq 4 \sqrt{n} \cdot (c_{1} / 2) . \end{aligned}

$\begin{align}-f'(\xi) &\geq 4\sqrt{n} \sum_{k\geq t} \binom{n}{k} \left(\frac12 - \xi\right)^{k} \left(\frac12+\xi\right)^{n-k} \\&= 4\sqrt{n} f(\xi) \geq 4\sqrt{n} f(\varepsilon) \geq 4\sqrt{n}\cdot (c_1/2).\end{align}$ Ici, nous avons utilisé l'hypothèse que . Nous avons montré que .

f (ε) = \underset{D}{Pr} (x_{1} + \dots + x_{n} \geq t) \geq c_{1} / 2

$f(\varepsilon) = \Pr_D(x_1+\dots+x_n \geq t) \geq c_1/2$

- f^{'} (ξ) = Ω (\sqrt{n})

$-f'(\xi) = \Omega(\sqrt{n})$

— Yury
source

Une preuve un peu plus élémentaire et un peu plus désordonnée (ou du moins ça me semble).

Pour plus de commodité, écrivez , avec par hypothèse. $\varepsilon = \frac{\gamma}{\sqrt{n}}$ $\gamma\in [0,1)$

Nous limitons explicitement l'expression de : $\operatorname{d}_{\rm TV}{(P,U)}$

\begin{aligned} 2 {ré}_{T V} (P, U) & = \sum_{X \in {0, 1}^{n}} | {(\frac{1}{2} + \frac{γ}{\sqrt{n}})}^{| X |} {(\frac{1}{2} - \frac{γ}{\sqrt{n}})}^{n - | X |} - \frac{1}{2^{n}} | \\ = \frac{1}{2^{n}} \sum_{k = 0}^{n} (\binom{n}{k}) | {(1 + \frac{2 γ}{\sqrt{n}})}^{k} {(1 - \frac{2 γ}{\sqrt{n}})}^{n - k} - 1 | \\ \geq \frac{1}{2^{n}} \sum_{k = \frac{n}{2} + \sqrt{n}}^{\frac{n}{2} + 2 \sqrt{n}} (\binom{n}{k}) | {(1 + \frac{2 γ}{\sqrt{n}})}^{k} {(1 - \frac{2 γ}{\sqrt{n}})}^{n - k} - 1 | \\ \geq \frac{C}{\sqrt{n}} \sum_{k = \frac{n}{2} + \sqrt{n}}^{\frac{n}{2} + 2 \sqrt{n}} | {(1 + \frac{2 γ}{\sqrt{n}})}^{k} {(1 - \frac{2 γ}{\sqrt{n}})}^{n - k} - 1 | \end{aligned}

$\begin{align*} 2\operatorname{d}_{\rm TV}{(P,U)} &= \sum_{x\in\{0,1\}^n} \left\lvert{ \left( \frac{1}{2} + \frac{\gamma }{\sqrt{n}} \right)^{\lvert{x}\rvert}\left( \frac{1}{2} - \frac{\gamma }{\sqrt{n}} \right)^{n-\lvert{x}\rvert} - \frac{1}{2^n} }\right\rvert \\ &= \frac{1}{2^n}\sum_{k=0}^n \binom{n}{k}\left\lvert{ \left( 1 + \frac{2\gamma }{\sqrt{n}} \right)^{k}\left( 1 - \frac{2\gamma }{\sqrt{n}} \right)^{n-k} - 1 }\right\rvert \\ &\geq \frac{1}{2^n}\sum_{k=\frac{n}{2}+\sqrt{n}}^{\frac{n}{2}+2\sqrt{n}} \binom{n}{k}\left\lvert{ \left( 1 + \frac{2\gamma }{\sqrt{n}} \right)^{k}\left( 1 - \frac{2\gamma }{\sqrt{n}} \right)^{n-k} - 1 }\right\rvert \\ &\geq \frac{C}{\sqrt{n}}\sum_{k=\frac{n}{2}+\sqrt{n}}^{\frac{n}{2}+2\sqrt{n}} \left\lvert{ \left( 1 + \frac{2\gamma }{\sqrt{n}} \right)^{k}\left( 1 - \frac{2\gamma }{\sqrt{n}} \right)^{n-k} - 1 } \right\rvert \end{align*}$ où est une constante absolue. Nous réduisons chaque borne séparément: en fixant , et en écrivant , sorte que chaque sommet soit limité par une quantité qui converge (quand ) à

C > 0

$C>0$

k

$k$

ℓ = k - \frac{n}{2} \in [\sqrt{n}, 2 \sqrt{n}]

$\ell = k-\frac{n}{2} \in [\sqrt{n},2\sqrt{n}]$

\begin{aligned} {(1 + \frac{2 γ}{\sqrt{n}})}^{k} {(1 - \frac{2 γ}{\sqrt{n}})}^{n - k} & = {(1 - \frac{4 γ^{2}}{n})}^{n / 2} {(\frac{1 + \frac{2 γ}{\sqrt{n}}}{1 - \frac{2 γ}{\sqrt{n}}})}^{ℓ} \\ \geq {(1 - \frac{4 γ^{2}}{n})}^{n / 2} {(\frac{1 + \frac{2 γ}{\sqrt{n}}}{1 - \frac{2 γ}{\sqrt{n}}})}^{\sqrt{n}} \to_{n \to \infty}^{} e^{4 γ - 2 γ^{2}} \end{aligned}

$\begin{align*} \left( 1 + \frac{2\gamma }{\sqrt{n}} \right)^{k}\left( 1 - \frac{2\gamma }{\sqrt{n}} \right)^{n-k} &= \left( 1 - \frac{4\gamma ^2}{n} \right)^{n/2}\left( \frac{1 + \frac{2\gamma }{\sqrt{n}}}{1 - \frac{2\gamma }{\sqrt{n}}}\right)^\ell \\ &\geq \left( 1 - \frac{4\gamma ^2}{n} \right)^{n/2}\left( \frac{1 + \frac{2\gamma }{\sqrt{n}}}{1 - \frac{2\gamma }{\sqrt{n}}}\right)^{\sqrt{n}} \xrightarrow[n\to\infty]{} e^{4\gamma -2\gamma ^2} \end{align*}$

n \to \infty

$n\to \infty$

e^{4 γ - 2 γ^{2}} - 1 > 4 γ - 2 γ^{2} > 2 γ

$e^{4\gamma -2\gamma ^2}-1 > 4\gamma -2\gamma ^2 > 2\gamma$ ; ce qui implique que chacun est . En résumé, cela donne comme revendiqué.

Ω (γ)

$\Omega(\gamma )$

\begin{aligned} 2 {ré}_{T V} (P, U) & \geq \frac{C}{\sqrt{n}} \sum_{k = \frac{n}{2} + \sqrt{n}}^{\frac{n}{2} + 2 \sqrt{n}} Ω (γ) = Ω (γ) = Ω (ε \sqrt{n}) \end{aligned}

$\begin{align*} 2\operatorname{d}_{\rm TV}{(P,U)} &\geq \frac{C}{\sqrt{n}}\sum_{k=\frac{n}{2}+\sqrt{n}}^{\frac{n}{2}+2\sqrt{n}} \Omega(\gamma ) = \Omega(\gamma) = \Omega(\varepsilon\sqrt{n}) \end{align*}$

— Clement C.
source

(Utiliser Hellinger comme proxy en raison de ses belles propriétés par rapport aux distributions de produits est tentant et serait beaucoup plus rapide, mais il y aurait une perte par un facteur quadratique à la limite inférieure.)

— Clement C.

Agréable! J'aime l'approche élémentaire. Nous devrions également pouvoir le rendre non asymptotique en .... une façon consiste à utiliser , puis utilisez la belle inégalité . Un peu plus compliqué.

n

$n$

{(\frac{1 + z}{1 - z})}^{\sqrt{n}} \geq {(1 + 2 z)}^{\sqrt{n}}

$\left(\frac{1+z}{1-z}\right)^{\sqrt{n}} \geq \left(1 + 2z\right)^{\sqrt{n}}$

1 + w \geq e^{w - w^{2} / 2}

$1+w \geq e^{w - w^2/2}$

— usul