Erreur dans l'approximation normale d'une distribution de somme uniforme

Une méthode naïve pour approximer une distribution normale consiste à additionner peut-être variables aléatoires IID uniformément réparties sur , puis plus récentes et redimensionnées, en s'appuyant sur le théorème de la limite centrale. ( Remarque : il existe des méthodes plus précises telles que la transformée de Box – Muller .) La somme des variables aléatoires IID est connue sous le nom de distribution de somme uniforme ou distribution d' Irwin – Hall . $100$ $[0,1]$ $U(0,1)$

Quelle est l'erreur dans l'approximation d'une distribution de somme uniforme par une distribution normale?

Chaque fois que ce type de question se pose pour approximer la somme des variables aléatoires IID, les gens (y compris moi) font apparaître le théorème de Berry-Esseen , qui est une version efficace du théorème central limite étant donné que le troisième moment existe:

| F_{n} (x) - Φ (x) | \leq \frac{C ρ}{σ^{3} \sqrt{n}}

$|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n}$

où est la fonction de distribution cumulative pour la somme rééchelonnée de variables aléatoires IID, est le troisième moment central absolu, est l'écart-type, et est une constante absolue qui peut être prise égale à ou même . $F_n$ $n$ $\rho$ $E|(X-EX)^3|$ $\sigma$ $C$ $1$ $1/2$

Ce n'est pas satisfaisant. Il me semble que l'estimation de Berry – Esseen est la plus proche de forte sur les distributions binomiales qui sont discrètes, avec la plus grande erreur à pour une distribution binomiale symétrique. La plus grande erreur survient au plus grand saut. Cependant, la distribution de somme uniforme n'a pas de sauts. $0$

Les tests numériques suggèrent que l'erreur diminue plus rapidement que . $c/\sqrt n$

En utilisant , l'estimation de Berry – Esseen est $C=1/2$

| F_{n} (x) - Φ (x) | \leq \frac{\frac{1}{2} \frac{1}{32}}{\frac{1}{{\sqrt{12}}^{3}} \sqrt{n}} \approx \frac{0.650}{\sqrt{n}}

$|F_n(x) - \Phi(x)| \le \frac{\frac12 \frac{1}{32}}{\frac{1}{\sqrt{12}^3} \sqrt n} \approx \frac{0.650}{\sqrt n}$

qui pour est d'environ , et , respectivement. Les différences maximales réelles pour semblent être d'environ , et , respectivement, qui sont beaucoup plus petites et semblent tomber en au lieu de . $n=10,20,40$ $0.205$ $0.145$ $0.103$ $n=10, 20, 40$ $0.00281$ $0.00139$ $0.000692$ $c/n$ $c/\sqrt n$

— Douglas Zare
source

Si vous développez la distribution de la somme dans une expansion Edgeworth , vous trouvez que uniformément dans comme (puisque la distribution uniforme est symétrique), donc sonne juste. En raison du terme , cela ne vous donne cependant pas de limite ...

F_{n} (x) = Φ (x) + n^{- 1} g (x) + o (n^{- 1})

$F_n(x)=\Phi(x)+n^{-1}g(x)+o(n^{-1})$

x

$x$

n \to \infty

$n\rightarrow\infty$

c / n

$c/n$

o (n^{- 1})

$o(n^{-1})$

— MånsT

Merci, cela semble expliquer également le modèle pour de nombreuses autres distributions.

c / n

$c/n$

— Douglas Zare

Soit des variables aléatoires iid et considérons la somme normalisée et la norme où est la distribution de . $U_1, U_2,\dots$ $\mathcal U(-b,b)$

S_{n} = \frac{\sqrt{3} \sum_{je = 1}^{n} U_{je}}{b \sqrt{n}},

$S_n = \frac{\sqrt{3} \sum_{i=1}^n U_i}{b \sqrt{n}} \>,$

sup

$\sup$

δ_{n} = \underset{X \in R}{souper} | F_{n} (X) - Φ (X) |,

$\delta_n = \sup_{x\in\mathbb R} |F_n(x) - \Phi(x)| \>,$

F_{n}

$F_n$

S_{n}

$S_n$

Lemme 1 ( Uspensky ): La borne suivante sur est . $\delta_n$

δ_{n} < \frac{1}{7,5 π n} + \frac{1}{π} {(\frac{2}{π})}^{n} + \frac{12}{π^{3} n} \exp (- π^{2} n / 24) .

$\delta_n < \frac{1}{7.5 \pi n} + \frac{1}{\pi}\left(\frac{2}{\pi}\right)^n + \frac{12}{\pi^3 n} \exp(-\pi^2 n / 24) \>.$

Preuve . Voir JV Uspensky (1937), Introduction à la probabilité mathématique , New York: McGraw-Hill, p. 305.

Cela a été amélioré par la suite par R. Sherman.

Lemme 2 ( Sherman ): L'amélioration suivante sur la limite d'Uspensky tient.

δ_{n} < \frac{1}{7,5 π n} - (\frac{π}{180} + \frac{1}{7,5 π n}) e^{- π^{2} n / 24} + \frac{1}{(n + 1) π} {(\frac{2}{π})}^{n} + \frac{12}{π^{3} n} e^{- π^{2} n / 24} .

$\delta_n < \frac{1}{7.5 \pi n} - \left(\frac{\pi}{180}+\frac{1}{7.5\pi n}\right) e^{-\pi^2 n / 24} + \frac{1}{(n+1)\pi}\left(\frac{2}{\pi}\right)^n + \frac{12}{\pi^3 n} e^{-\pi^2 n / 24} \>.$

Preuve : Voir R. Sherman, Erreur de l'approximation normale à la somme de N variables aléatoires , Biometrika , vol. 58, non. 2, 396–398.

La preuve est une application assez simple de l'inégalité du triangle et des bornes classiques sur la queue de la distribution normale et sur appliquée aux fonctions caractéristiques de chacune des deux distributions. $(\sin x) / x$

— cardinal
source

+1 Est-ce que dans le lemme 2?

N = n

$N=n$

@Procrastinator: Bonne capture.

— cardinal

Merci! Ces références sont très utiles. Les estimations semblent se situer dans un facteur de de la valeur réelle.

2

$2$

— Douglas Zare