Pourquoi le théorème de limite centrale tombe en panne dans ma simulation?

21

Disons que j'ai les numéros suivants:

4,3,5,6,5,3,4,2,5,4,3,6,5

J'en échantillonne certains, disons 5 d'entre eux, et calcule la somme de 5 échantillons. Ensuite, je le répète encore et encore pour obtenir de nombreuses sommes, et je trace les valeurs des sommes dans un histogramme, qui sera gaussien en raison du théorème de la limite centrale.

Mais quand ils suivent des nombres, je viens de remplacer 4 par un grand nombre:

4,3,5,6,5,3,10000000,2,5,4,3,6,5

L'échantillonnage de 5 échantillons de ceux-ci ne devient jamais gaussien dans l'histogramme, mais ressemble plus à une scission et devient deux gaussiens. Pourquoi donc?

central-limit-theorem

— JimSD
source

1

Cela ne fera pas cela si vous l'augmentez au-delà de n = 30 ou plus ... juste mon soupçon et une version plus succincte / reformulant la réponse acceptée ci-dessous.

— octobre 1905

@JimSD le CLT est un résultat asymptotique (c'est-à-dire sur la distribution des moyennes d'échantillon normalisées ou des sommes dans la limite lorsque la taille de l'échantillon va à l'infini). n'est pas . La chose que vous regardez (l'approche de la normalité dans les échantillons finis) n'est pas strictement le résultat du CLT, mais un résultat connexe.

n = 5

$n=5$

n \to \infty

$n\to\infty$

— Glen_b -Reinstate Monica

3

@ oemb1905 n = 30 n'est pas suffisant pour le type d'asymétrie suggéré par OP. Selon la rareté de cette contamination avec une valeur comme cela peut prendre n = 60 ou n = 100 ou même plus avant que la normale ressemble à une approximation raisonnable. Si la contamination est d'environ 7% (comme dans la question) n = 120 est encore quelque peu

10^{7}

$10^7$

— asymétrique

2

Duplication possible de Pourquoi l'augmentation de la taille de l'échantillon des tours de pièces n'améliore-t-elle pas l'approximation de la courbe normale?

— Sextus Empiricus

Pensez que les valeurs dans des intervalles comme (1 100 000, 1 900 000) ne seront jamais atteintes. Mais si vous faites un montant décent de ces sommes, cela fonctionnera!

— David

18

Rappelons précisément ce que dit le théorème de la limite centrale.

Si sont des variables aléatoires indépendantes et identiquement distribuées avec une moyenne (partagée) et l'écart type , alors converge en distribution vers une distribution normale standard (*). $X_1, X_2, \cdots, X_k$ $\mu$ $\sigma$ $\frac{X_1 + X_2 + \cdots + X_k}{k\frac{\sigma}{\sqrt{k}}}$ $N(0, 1)$

Ceci est souvent utilisé sous la forme "informelle":

Si sont des variables aléatoires indépendantes et distribuées de manière identique avec une moyenne (partagée) et l'écart type , alors converge "en distribution" vers une distribution normale standard . $X_1, X_2, \cdots, X_k$ $\mu$ $\sigma$ $X_1 + X_2 + \cdots + X_k$ $N(k \mu, \sqrt{k} \sigma)$

Il n'y a aucun bon moyen de rendre mathématiquement cette forme de CLT précise, puisque la distribution "limite" change, mais c'est utile dans la pratique.

Quand nous avons une liste statique de nombres comme

4,3,5,6,5,3,10000000,2,5,4,3,6,5

et nous échantillonnons en prenant un nombre au hasard dans cette liste, pour appliquer le théorème de la limite centrale, nous devons être sûrs que notre schéma d'échantillonnage satisfait ces deux conditions d'indépendance et est identique.

La répartition identique n'est pas un problème: chaque numéro de la liste est également susceptible d'être choisi.
L'indépendance est plus subtile et dépend de notre plan d'échantillonnage. Si nous échantillonnons sans remplacement , nous violons l'indépendance. Ce n'est que lorsque nous échantillonnons avec remplacement que le théorème de la limite centrale est applicable.

Donc, si nous utilisons un échantillonnage de remplacement dans votre schéma, nous devrions être en mesure d'appliquer le théorème de la limite centrale. En même temps, vous avez raison, si notre échantillon est de taille 5, alors nous allons voir un comportement très différent selon que le très grand nombre est choisi ou non dans notre échantillon.

Alors, quel est le hic? Eh bien, le taux de convergence vers une distribution normale dépend beaucoup de la forme de la population à partir de laquelle nous échantillonnons, en particulier, si notre population est très asymétrique, nous nous attendons à ce qu'il prenne beaucoup de temps pour converger vers la normale. C'est le cas dans notre exemple, il ne faut donc pas s'attendre à ce qu'un échantillon de taille 5 soit suffisant pour montrer la structure normale.

Ci-dessus, j'ai répété votre expérience (avec échantillonnage de remplacement) pour des échantillons de taille 5, 100 et 1000. Vous pouvez voir que la structure normale émerge pour de très grands échantillons.

(*) Notez que certaines conditions techniques sont nécessaires ici, comme la moyenne finie et la variance. Ils sont facilement vérifiés pour être vrais dans notre échantillonnage à partir d'un exemple de liste.

— Matthew Drury
source

Merci pour une réponse très rapide et parfaite. Idée de CLT, remplacement, besoin de plus d'échantillons lorsque la distribution des données est biaisée, ... C'est très clair maintenant. Mon intention initiale de question est, comme vous l'avez mentionné, le cas où un grand nombre est inclus sans remplacement et que le nombre d'échantillonnage est fixe. Il se comporte très différemment, et nous devons donc considérer un CLT "conditionnel" pour le cas où un grand nombre est échantillonné et le cas non échantillonné. Je me demande s'il y a des recherches ou des travaux antérieurs pour cela .. Mais merci quand même.

— JimSD

Je ne sais pas si cela s'applique ici, mais le théorème de la convergence CLT est régulé par l'asymétrie en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem

— seanv507

Je suis un peu confus par la définition de @ MatthewDrury du CLT. Je pense que converge vers une constante par le LLN, pas une distribution normale.

\frac{\sum X_{k}}{k}

$\frac{\sum X_k}{k}$

— JTH

1

@ seanv507 troisième moment absolu, plutôt que l'asymétrie; les deux sont liés mais notons que pour une distribution symétrique avec un troisième moment fini que Berry-Esseen a lié surn'est pas 0 parce que n'est pas asymétrique

| F_{n} (x) - Φ (x) |

$|F_n(x)-\Phi(x)|$

ρ / σ^{3}

$\rho/\sigma^3$

— Glen_b -Reinstate Monica

1

@Glen_b Yah, j'étais un peu informel (ce que je n'aurais peut-être pas dû être), mais je peux corriger ça cet après-midi car cela a conduit à un peu de confusion.

— Matthew Drury

12

En général, la taille de chaque échantillon doit être supérieure à pour que l'approximation CLT soit bonne. Une règle d' or est un échantillon de taille ou plus. Mais, avec la population de votre premier exemple, est OK. $5$ $30$ $5$

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

Dans votre deuxième exemple, en raison de la forme de la répartition de la population (d'une part, c'est trop asymétrique; lisez les commentaires de guy et Glen_b ci-dessous), même des échantillons de taille ne vous donneront pas une bonne approximation pour la distribution de la moyenne de l'échantillon en utilisant le CLT. $30$

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

Mais, avec cette deuxième population, les échantillons de, disons, la taille sont très bien. $100$

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

— Zen
source

3

Ce n'est pas l'écart qui pose problème. Une façon d'obtenir un contrôle rigoureux consiste à utiliser le rapport du troisième moment central à l'écart-type au cube, comme dans le théorème de Berry-Esseen.

— gars

Parfait. Ajoutée. Tks.

— le

1

Merci pour une réponse rapide, visuelle et parfaite avec un code. J'ai été très surpris de voir à quel point c'était rapide! Je n'étais pas au courant du nombre approprié d'échantillonnage. Je pensais au cas où le nombre d'échantillonnage est fixe.

— JimSD

@guy, merci pour cela. Je ne connaissais pas l'idée du "rapport du troisième moment central à l'écart-type au cube du théorème de Berry-Esseen" . Je veux juste aborder le cas où il y a un grand nombre comme une valeur aberrante incluse dans la distribution. Et ce genre de distribution peut être considéré comme vous l'avez mentionné, je suppose. Si vous connaissez des travaux antérieurs traitant de ce type de distribution, faites-le moi savoir, merci.

— JimSD

2

@guy le théorème de Berry Esseen concerne le troisième moment absolu de la moyenne pas seulement le troisième moment de la moyenne . Cela le rend sensible non seulement à l'asymétrie mais également aux queues lourdes.

ρ = E [| X - μ |^{3}]

$\rho=E[|X-\mu|^3]$

μ_{3} = E [(X - μ)^{3}]

$\mu_3=E[(X-\mu)^3]$

— Glen_b -Reinstate Monica

7

Je voudrais juste expliquer, en utilisant des fonctions complexes générant des cumulants , pourquoi tout le monde continue de blâmer cela de travers.

$\mu+\sigma Z$ $\mu$ $\sigma$ $Z$ $0$ $1$ $Z$ $-\frac{1}{2}t^2-\frac{i\gamma_1}{6}t^3+o(t^3)$ $\gamma_1$ $Z$ $\kappa_3$ $\mu+\sigma Z$ $\gamma_1=\sigma^{-3}\kappa_3$

$n$ $Z$ $\sqrt{n}$

n (- \frac{1}{2} {(\frac{t}{\sqrt{n}})}^{2} - \frac{i γ_{1}}{6} {(\frac{t}{\sqrt{n}})}^{3}) + o (t^{3}) = - \frac{1}{2} t^{2} - \frac{i γ_{1}}{6 \sqrt{n}} t^{3} + o (t^{3}) .

$n\left(-\frac{1}{2}\left(\frac{t}{\sqrt{n}}\right)^2-\frac{i\gamma_1}{6}\left(\frac{t}{\sqrt{n}}\right)^3\right)+o(t^3)=-\frac{1}{2}t^2-\frac{i\gamma_1}{6\sqrt{n}}t^3+o(t^3).$

t

$t$

n

$n$

n \propto γ_{1}^{2}

$n\propto\gamma_1^2$

γ_{1}

$\gamma_1$

— JG
source

-1

En bref, vous n'avez pas un échantillon suffisamment grand pour appliquer le théorème de la limite centrale.

— feynman
source

1

Le fait que cela ne puisse pas être une explication valable ressort clairement de l'observation selon laquelle le CLT donne une bonne approximation pour le premier ensemble de données de la question, qui est tout aussi petit.

— whuber

@whuber: Je pense que vous dites que la distribution normale donne une approximation raisonnablement bonne pour un échantillon de cinq du premier ensemble. Puisqu'il n'y a qu'un nombre fini de valeurs pour les sommes (13 valeurs possibles sans remplacement et 21 valeurs possibles avec remplacement), l'approximation ne s'améliore pas beaucoup avec un grand nombre d'échantillons de cinq, et l'approximation initiale est davantage due à le modèle initial ...

— Henry

@whuber Étant donné que la distribution du premier ensemble semble biaisée à gauche, je m'attendrais à ce que la somme de cinq soit également biaisée, d'une manière moins extrême que je ne m'attendrais à ce que la somme de cinq du deuxième ensemble soit asymétrique à droite. Pour que l'asymétrie diminue davantage, j'aurais pensé que vous auriez besoin d'un plus grand échantillon

— Henry

1

@Henry Merci pour vos commentaires. Je ne faisais pas de remarque sur ces circonstances particulières, mais seulement sur la logique de cette réponse, dans l'espoir qu'elle puisse être expliquée plus en détail.

— whuber