Simuler la convergence des probabilités à une constante

Les résultats asymptotiques ne peuvent pas être prouvés par simulation informatique, car ce sont des déclarations impliquant le concept de l'infini. Mais nous devrions être capables de sentir que les choses marchent effectivement comme le dit la théorie.

Considérons le résultat théorique

lim_{n \to \infty} P (| X_{n} | > ϵ) = 0, ϵ > 0

$\lim_{n\rightarrow\infty}P(|X_n|>\epsilon) = 0, \qquad \epsilon >0$

où $X_n$ est une fonction de $n$ variables aléatoires, disons distribuées de manière identique et indépendante. Cela que $X_n$ converge en probabilité vers zéro. L'exemple archétypal ici, je suppose, est le cas où $X_n$ est la moyenne de l'échantillon moins la valeur attendue commune des iidrv de l'échantillon,

X_{n} = \frac{1}{n} \sum_{i = 1}^{n} Y_{i} - E [Y_{1}]

$X_n = \frac 1n\sum_{i=1}^nY_i - E[Y_1]$

QUESTION: Comment pourrions-nous montrer de façon convaincante à quelqu'un que la relation ci-dessus "se matérialise dans le monde réel", en utilisant des résultats de simulation informatique à partir d'échantillons nécessairement finis?

S'il vous plaît noter que je ne choisis spécifiquement la convergence vers une constante .

Je donne ci-dessous mon approche comme réponse, et j'espère de meilleures.

MISE À JOUR: Quelque chose à l'arrière de ma tête m'a dérangé - et j'ai découvert quoi. J'ai déterré une question plus ancienne où une discussion des plus intéressantes s'est poursuivie dans les commentaires sur l' une des réponses . Dans ce document, @Cardinal a fourni un exemple d'estimateur selon lequel il est cohérent mais sa variance reste non nulle et finie asymptotiquement. Ainsi, une variante plus difficile de ma question devient: comment montrer par simulation qu'une statistique converge en probabilité vers une constante, lorsque cette statistique maintient asymptotiquement une variance non nulle et finie?

— Alecos Papadopoulos
source

@Glen_b Venant de vous, c'est l'équivalent d'un badge. Merci.

— Alecos Papadopoulos

J'y ai pensé de temps en temps et tout ce que j'ai trouvé c'est cette «concentration autour de l'argument moyen»; J'espère que certaines des personnes intelligentes ici auront le temps d'écrire quelque chose d'intéressant! (+1 bien sûr!)

— ekvall

Je pense à comme une fonction de distribution (complémentaire dans le cas spécifique). Étant donné que je veux utiliser la simulation informatique pour montrer que les choses tendent comme le dit le résultat théorique, j'ai besoin de construire la fonction de distribution empirique de, ou la distribution de fréquence relative empirique, puis montrent d'une manière ou d'une autre que lorsque augmente, les valeurs de concentrer "de plus en plus" à zéro. $P()$ $|X_n|$ $n$ $|X_n|$

Pour obtenir une fonction de fréquence relative empirique, j'ai besoin de (beaucoup) plus d'un échantillon de taille croissante, car à mesure que la taille de l'échantillon augmente, la distribution dechangements pour chaque différent . $|X_n|$ $n$

J'ai donc besoin de générer à partir de la distribution des , échantillons "en parallèle", disons allant dans les milliers, chacun d'une taille initiale , disons allant dans les dizaines de milliers. J'ai alors besoin de calculer la valeur deà partir de chaque échantillon (et pour le même ), c'est-à-dire obtenir l'ensemble des valeurs . $Y_i$ $m$ $m$ $n$ $n$ $|X_n|$ $n$ $\{|x_{1n}|, |x_{2n}|,...,|x_{mn}|\}$

Ces valeurs peuvent être utilisées pour construire une distribution de fréquence relative empirique. Ayant foi dans le résultat théorique, je m'attends à ce que "beaucoup" des valeurs desera "très proche" de zéro, mais bien sûr, pas tous. $|X_n|$

Donc, pour montrer que les valeurs demarche en effet vers zéro en nombre de plus en plus grand, il faudrait que je répète le processus, en augmentant la taille de l'échantillon pour dire , et en montrant que maintenant la concentration à zéro "a augmenté". Évidemment, pour montrer qu'il a augmenté, il faut spécifier une valeur empirique pour . $|X_n|$ $2n$ $\epsilon$

Serait-ce suffisant? Pourrait-on en quelque sorte officialiser cette "augmentation de concentration"? Est-ce que cette procédure, si elle est effectuée en plusieurs étapes «d’augmentation de la taille de l’échantillon», et que l’une est plus proche de l’autre, pourrait nous fournir une estimation du taux de convergence réel , c’est-à-dire quelque chose comme «une masse de probabilité empirique qui se déplace en dessous du seuil par chaque étape "de, disons, mille? $n$

Ou, examinez la valeur du seuil pour lequel, disons que % de la probabilité se situe en dessous, et voyez comment cette valeur de est réduite en magnitude? $90$ $\epsilon$

UN EXEMPLE

Considérez les comme étant et ainsi $Y_i$ $U(0,1)$

| X_{n} | = | \frac{1}{n} \sum_{i = 1}^{n} Y_{i} - \frac{1}{2} |

$|X_n| = \left|\frac 1n\sum_{i=1}^nY_i - \frac 12\right|$

Nous générons d'abord échantillons de chacun. La distribution de fréquence relative empirique deressemble à $m=1,000$ $n=10,000$ $|X_{10,000}|$ entrez la description de l'image ici

et nous notons que % des valeurs desont plus petits que . $90.10$ $|X_{10,000}|$ $0.0046155$

Ensuite, j'augmente la taille de l'échantillon à . Maintenant , la distribution de fréquence relative empiriqueressemble et on note que % des valeurs desont inférieurs à . Alternativement, maintenant % des valeurs tombent en dessous de . $n=20,000$ $|X_{20,000}|$ entrez la description de l'image ici $91.80$ $|X_{20,000}|$ $0.0037101$ $98.00$ $0.0045217$

Seriez-vous convaincu par une telle démonstration?

— Alecos Papadopoulos
source

Non, je ne serais pas convaincu par une telle démonstration, si c'était tout ce qui était proposé. Il n'est pas en mesure de faire la distinction entre le résultat revendiqué et un résultat dans lequel il y a une très petite quantité de contamination provenant d'une distribution non nulle. Toute simulation informatique, pour être vraiment convaincante, doit être accompagnée d'un raisonnement qui exclurait de tels phénomènes. (J'ai récemment effectué une série de simulations qui ont abouti à un échantillon de - ce n'est pas une faute de frappe - mais je n'ai toujours pas été convaincu par les résultats, bien qu'ils soient très suggestifs!)

10^{1000}

$10^{1000}$

— Whuber

@whuber Ce que vous écrivez semble très intéressant. Ces simulations que vous mentionnez étaient-elles basées sur des données réelles initiales, à partir desquelles des distributions où des données artificielles estimées puis supplémentaires ont été générées? Ou c'était artificiel dès le début? Si la confidentialité n'est pas un problème et que le temps le permet, je souhaiterais personnellement avoir une réponse de la vôtre donnant un aperçu de l'évolution de ces simulations et des raisons pour lesquelles le doute subsiste.

— Alecos Papadopoulos

C'était des données artificielles. J'ai effectué ces simulations pour prendre en charge un commentaire sur stats.stackexchange.com/questions/104875/… . Vous verrez immédiatement comment une simulation aussi grande peut être effectuée: pour générer un échantillon de partir d'une distribution de Bernoulli vous suffit de tirer une seule valeur d'une distribution binomiale . Lorsque est suffisamment grand, vous pouvez aussi bien tirer une valeur d'une distribution normale . L'astuce principale consiste à le faire avec une précision de chiffres :-).

N

$N$

(1 / 2)

$(1/2)$

(N, 1 / 2)

$(N,1/2)$

N

$N$

(N / 2, \sqrt{N} / 2)

$(N/2, \sqrt{N}/2)$

1000

$1000$

— whuber

@Whuber Merci, je vais y travailler. Soit dit en passant, la question que vous mentionnez, la réponse qui y est contenue et vos commentaires m'ont amené à approfondir à la fois la distribution asymptotique de la variance de l'échantillon à partir d'échantillons non normaux, ainsi que l'applicabilité du théorème de Slutsky de la manière qui est utilisé dans la réponse. J'espère que j'aurai éventuellement des résultats à partager.

— Alecos Papadopoulos