Quelle explication intuitive existe-t-il pour le théorème de la limite centrale?


144

Dans plusieurs contextes différents, nous invoquons le théorème de la limite centrale pour justifier toute méthode statistique que nous souhaitons adopter (par exemple, approximer la distribution binomiale par une distribution normale). Je comprends les détails techniques expliquant pourquoi le théorème est vrai, mais je viens tout juste de penser que je ne comprends pas vraiment l’intuition qui se cache derrière le théorème de la limite centrale.

Alors, quelle est l'intuition derrière le théorème de la limite centrale?

Les explications de Layman seraient idéales. Si des détails techniques sont nécessaires, supposons que je comprenne les concepts de pdf, cdf, variable aléatoire, etc., mais que je n’ai aucune connaissance des concepts de convergence, des fonctions caractéristiques ou de tout ce qui a trait à la théorie des mesures.


8
Bonne question, bien que ma réaction immédiate, confortée par mon expérience limitée en enseignement, soit que le CLT n’était pas du tout intuitif pour la plupart des gens. Si quelque chose, c'est contre-intuitif!
onestop

2
@onestop AMEN! regarder la distribution binomiale avec p = 1/2 à mesure que n augmente, montre que le CLT se cache - mais l'intuition de le faire m'a toujours échappé.
Ronaf

2
Une question similaire avec quelques bonnes idées: stats.stackexchange.com/questions/643/…

1
Pas une explication mais cette simulation peut être utile pour la comprendre.
David Lane

Réponses:


119

Je m'excuse par avance pour la longueur de ce message: c’est avec une certaine trépidation que je le publie en public, car il faut du temps et de l’attention pour le lire et sans aucun doute des erreurs typographiques et des erreurs d’exposition. Mais ici, c’est pour ceux qui s’intéressent au sujet fascinant, offert dans l’espoir que cela vous encouragera à identifier une ou plusieurs des nombreuses parties du CLT pour une élaboration plus poussée dans vos propres réponses.


La plupart des tentatives pour "expliquer" le CLT sont des illustrations ou simplement des reformulations qui affirment que c'est vrai. Une explication vraiment pénétrante et correcte devrait expliquer énormément de choses.

Avant d’examiner cette question plus en détail, précisons ce que dit le CLT. Comme vous le savez tous, certaines versions varient dans leur généralité. Le contexte commun est une séquence de variables aléatoires, qui correspondent à certains types de fonctions dans un espace de probabilité commun. Pour des explications intuitives rigoureuses, il est utile de penser à un espace de probabilité comme une boîte avec des objets distinguables. Peu importe ce que sont ces objets mais je les appellerai "des billets". Nous faisons une "observation" d'une boîte en mélangeant soigneusement les billets et en en tirant un; ce billet constitue l'observation. Après l'avoir enregistré pour une analyse ultérieure, nous retournons le ticket à la boîte afin que son contenu reste inchangé. Une "variable aléatoire" est fondamentalement un nombre écrit sur chaque ticket.

En 1733, Abraham de Moivre envisagea le cas d'une seule boîte dont les numéros sur les billets ne sont que des zéros et des ("Procès de Bernoulli"), avec une partie de chaque numéro. Il a imaginé effectuer observations physiques indépendantes , donnant une séquence de valeurs , qui sont toutes zéro ou à un. La somme de ces valeurs, , est aléatoire car les termes de la somme le sont. Par conséquent, si nous pouvions répéter cette procédure plusieurs fois, différentes sommes (nombres entiers allant de à ) apparaissent avec différentes fréquences - proportions du total. (Voir les histogrammes ci-dessous.)x 1 , x 2 , , x n y n = x 1 + x 2 + + x n 0 nnx1,x2,,xnyn=x1+x2++xn0n

Maintenant, on s’attendrait - et c’est vrai - pour des valeurs très grandes de , toutes les fréquences seraient assez petites. Si nous devions être assez audacieux (ou insensés) pour tenter de "prendre une limite" ou "laisser aller à ", nous conclurions correctement que toutes les fréquences sont réduites à . Mais si nous dessinons simplement un histogramme des fréquences, sans prêter attention à la façon dont ses axes sont étiquetés, nous voyons que les histogrammes du grand commencent à se ressembler: dans un sens, ces histogrammes se rapprochent d'une limite même si les fréquences eux-mêmes vont tous à zéro.n 0 nnn0n

Les histogrammes

Ces résultats représentent les histogrammes de répéter la procédure d'obtention plusieurs fois. est le "nombre d'essais" dans les titres. nynn

L’idée ici est de commencer par dessiner l’histogramme et de nommer ses axes plus tard . Avec grand l'histogramme couvre une large plage de valeurs centrée autour de (sur l'axe horizontal) et sur un intervalle de valeurs extrêmement petit (sur l'axe vertical), car les fréquences individuelles deviennent assez petites. L'ajustement de cette courbe dans la zone de tracé a donc nécessité à la fois un décalage et un redimensionnement de l'histogramme. La description mathématique de ceci est que pour chaque nous pouvons choisir une valeur centrale (pas nécessairement unique!) Pour positionner l'histogramme et une valeur d'échellen / 2 n m n s n y n z n = ( y n - m n ) / s nnn/2nmnsn(pas nécessairement unique!) pour l'adapter aux axes. Cela peut être fait mathématiquement en changeant en .ynzn=(ynmn)/sn

Rappelez-vous qu'un histogramme représente les fréquences par zones entre lui et l'axe horizontal. La stabilité éventuelle de ces histogrammes pour les grandes valeurs de doit donc être indiquée en termes de surface. n a b > a n z n ( a , b ] Alors, choisissez n'importe quel intervalle de valeurs que vous aimez, disons de à et, au fur et à mesure que augmente, suivez l'aire de la partie de l'histogramme de qui couvre horizontalement l'intervalle . Le CLT affirme plusieurs des choses:ab>anzn(a,b]

  1. Quels soient a et ,b ab si nous choisissons les séquences et manière appropriée (d'une manière qui ne dépend pas de ou du tout), cette zone approche en effet d'une limite lorsque devient grand.s n a b nmnsnabn

  2. Les séquences et peuvent être choisies de manière à ne dépendre que de , de la moyenne des valeurs dans la boîte et d'une certaine mesure de propagation de ces valeurs - mais de rien d'autre - afin que, indépendamment de ce qui est dans la boîte. , la limite est toujours la même. (Cette propriété d'universalité est incroyable.)s n nmnsnn

  3. Plus précisément, cette aire limite est l'aire sous la courbe entre et : c'est la formule de cet histogramme limitant universel. aby=exp(z2/2)/2πab

    La première généralisation du CLT ajoute,

  4. Lorsque la case peut contenir des chiffres en plus des zéros et des uns, les mêmes conclusions sont valables (à condition que les proportions de nombres extrêmement grands ou petits dans la case ne soient pas "trop ​​grandes", critère qui comporte un énoncé quantitatif précis et simple). .

    La prochaine généralisation, et peut-être la plus étonnante, remplace cette boîte unique de billets par un nombre indéfiniment ordonné de boîtes avec des billets. Chaque boîte peut avoir différents numéros sur ses billets dans des proportions différentes. L'observation est réalisée en tirant un ticket de la première case, vient de la seconde case, etc.x 2x1x2

  5. Les mêmes conclusions valent, à condition que le contenu des cases ne soit "pas trop différent" (il existe plusieurs caractérisations quantitatives précises mais différentes de ce que "pas trop différent" doit signifier; elles permettent une latitude étonnante).

Ces cinq affirmations, au minimum, doivent être expliquées. Il y a plus. Plusieurs aspects intrigants de la configuration sont implicites dans toutes les déclarations. Par exemple,

  • Quelle est la particularité de la somme ? Pourquoi n'avons-nous pas de théorèmes limites centraux pour d'autres combinaisons mathématiques de nombres telles que leur produit ou leur maximum? (Il s'avère que nous le faisons, mais ils ne sont pas aussi généraux et ils n'ont pas toujours une conclusion aussi nette et simple à moins de pouvoir être réduits au CLT.) Les séquences de et ne sont pas uniques, mais elles sont presque uniques. dans le sens où ils doivent approximer approximativement l'espérance de la somme de tickets et de l' écart type de la somme, respectivement (qui, dans les deux premiers états du CLT, est égale à fois l'écart type du boîte). s n n mnsnnn

    L'écart-type est l'une des mesures de la dispersion des valeurs, mais il ne s'agit ni de la seule ni de la plus "naturelle", ni dans le passé, ni pour de nombreuses applications. (Beaucoup de gens choisiraient par exemple une déviation absolue médiane de la médiane , par exemple).

  • Pourquoi le SD apparaît-il de manière aussi essentielle?

  • Considérons la formule de l'histogramme limitant: qui se serait attendu à ce qu'il prenne une telle forme? Il dit que le logarithme de la densité de probabilité est une fonction quadratique . Pourquoi? Existe-t-il une explication convaincante, intuitive ou claire, à cela?


J'avoue que je suis incapable d'atteindre l'objectif ultime de fournir des réponses assez simples pour répondre aux critères ambitieux de Srikant en matière d'intuitivité et de simplicité, mais j'ai esquissé ce contexte dans l'espoir que d'autres personnes pourraient être inspirées pour combler certaines des nombreuses lacunes. Je pense qu'une bonne démonstration devra finalement reposer sur une analyse élémentaire de la manière dont les valeurs entre et peuvent survenir en formant la somme . Pour revenir à la version à boîtier unique du CLT, le cas d’une distribution symétrique est plus simple à gérer: sa médiane est égale à sa moyenne. Il y a donc 50% de chances que soit inférieur à la moyenne de la boîte et 50% de chance queαn=asn+mnx 1 + x 2 + + x n x i x i nβn=bsn+mnx1+x2++xnxixisera plus grande que sa moyenne. De plus, lorsque est suffisamment grand, les écarts positifs par rapport à la moyenne doivent compenser les écarts négatifs par rapport à la moyenne. (Cela nécessite une justification minutieuse, et pas seulement un geste de la main.) Ainsi, nous devrions avant tout nous préoccuper de compter les nombres d’écarts positifs et négatifs et n’avoir qu’une préoccupation secondaire quant à leur taille.n (De toutes les choses que j'ai écrites ici, ceci pourrait être le plus utile pour fournir une certaine intuition sur le pourquoi du CLT. En fait, les hypothèses techniques nécessaires pour rendre vraies les généralisations du CLT sont essentiellement différentes pour exclure la possibilité que de très rares écarts énormes perturberont suffisamment l'équilibre pour empêcher l'apparition de l'histogramme limitant.)

Cela montre, dans une certaine mesure en tout cas, pourquoi la première généralisation du CLT ne permet pas de découvrir quoi que ce soit qui n’était pas dans la version d’essai originale de De Moivre, Bernoulli.

À ce stade, il semble qu'il ne reste plus qu'à faire un peu de calcul: nous devons compter le nombre de façons distinctes par lesquelles le nombre d'écarts positifs par rapport à la moyenne peut différer du nombre d'écarts négatifs d'une valeur prédéterminée , où est évidemment l' un des . Mais comme des erreurs infimes disparaîtront dans la limite, nous n’avons pas à compter avec précision; nous n'avons qu'à approximer les comptes. Pour cela, il suffit de savoir quek - n , - n + 2 , , n - 2 , nkkn,n+2,,n2,n

The number of ways to obtain k positive and nk negative values out of n

equals nk+1k

times the number of ways to get k1 positive and nk+1 negative values.

(C'est un résultat parfaitement élémentaire, je ne vais donc pas prendre la peine d'écrire la justification.) Nous approchons maintenant de la vente en gros. La fréquence maximale se produit lorsque est aussi proche que possible de (également élémentaire). Écrivons . Ensuite, par rapport à la fréquence maximale, la fréquence de écarts positifs ( ) est estimée par le produit.n / 2 m = n / 2 m + j + 1 j 0kn/2m=n/2m+j+1j0

m+1m+1mm+2mj+1m+j+1

=11/(m+1)1+1/(m+1)12/(m+1)1+2/(m+1)1j/(m+1)1+j/(m+1).

135 ans avant l'écriture de de Moivre, John Napier a inventé les logarithmes pour simplifier la multiplication, profitons-en. Utiliser l'approximation

log(1x1+x)2x,

nous constatons que le journal de la fréquence relative est d'environ

2/(m+1)4/(m+1)2j/(m+1)=j(j+1)m+1j2m.

Comme l’erreur cumulative est proportionnelle à , elle devrait bien fonctionner à condition que soit faible par rapport à . Cela couvre une gamme de valeurs de que nécessaire. (Il suffit que l'approximation fonctionne pour uniquement de l'ordre de ce qui asymptotiquement est beaucoup plus petit que .)j 4 m 3 j j j4/m3j4m3jj m trois / 4mm3/4


Évidemment, il faudrait présenter beaucoup plus d’analyses de ce type pour justifier les autres affirmations de la CLT, mais je manque de temps, d’espace et d’énergie et j’ai probablement perdu 90% des personnes qui ont commencé à le lire. Cette approximation simple, cependant, suggère comment de Moivre aurait pu soupçonner à l'origine qu'il existe une distribution limite universelle, que son logarithme est une fonction quadratique et que le facteur d'échelle approprié doit être proportionnel à (car ).snnj2/m=2j2/n=2(j/n)2 Il est difficile d’imaginer comment cette importante relation quantitative pourrait être expliquée sans invoquer une sorte d’information mathématique et de raisonnement; rien de moins laisserait la forme précise de la courbe limite un mystère complet.


5
+1 Il me faudra un peu de temps pour assimiler votre réponse. J'admets que demander une intuition pour le CLT dans les limites que je me suis imposée est presque impossible.

2
Merci d’avoir pris le temps d’écrire ceci, c’est l’exposition la plus utile du CLT que j’ai vue qui soit aussi très accessible mathématiquement.
Jeremy Radcliff

1
Oui, assez dense ... tellement de questions. Comment le premier histogramme a-t-il 2 barres (il n'y avait qu'un seul essai!); puis-je simplement ignorer ça? Et la convention est généralement d'éviter les espaces horizontaux entre les barres d'un histogramme, n'est-ce pas? (parce que, comme vous le dites, la surface est importante et la surface sera éventuellement calculée sur un domaine continu (c.-à-d. pas de lacunes))? Donc, je vais ignorer les lacunes, aussi ...? J'avais même des lacunes quand j'ai essayé de comprendre pour la première fois :)
The Red Pea

1
@TheRed Merci pour vos questions. J'ai édité la première partie de cet article pour clarifier un peu ces points.
whuber

4
Ah, oui, j'ai confondu "nombre d'essais = =" observations "" avec "nombre de fois (toute cette procédure) est répété". Donc , si un billet ne peut avoir la valeur des deux valeurs, 0 ou 1 , et vous n'observer un billet, la somme des valeurs de ces billets ne peut être l' une des deux choses: 0 ou 1 . Par conséquent, votre premier histogramme a deux barres. De plus, ces barres ont à peu près la même hauteur car on s'attend à ce que 0 et 1 apparaissent dans des proportions égales. n
Le pois rouge

27

La plus belle animation que je connaisse: http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.html

8 couches horizontales de broches équidistantes, chaque couche étant décalée, il en résulte un obstacle de type "pachinko / flipper" pour les balles tombées à travers ces broches.  Chaque balle tombe en bas et lorsque les balles s'empilent, leur hauteur se rapproche du contour de la courbe gaussienne.  Cela montre que la somme de nombreux événements aléatoires indépendants (les couches) donnera une distribution gaussienne des résultats (la hauteur de la boule empilée).

Les mots les plus simples que j'ai lus: http://elonen.iki.fi/articles/centrallimit/index.en.html

Si vous faites la somme des résultats de ces dix lancers, ce que vous obtiendrez sera probablement plus proche de 30-40 que le maximum, 60 (tous les six) ou, au contraire, le minimum, 10 (tous les uns).

La raison en est que vous pouvez obtenir les valeurs moyennes de beaucoup plus de manières différentes que les extrêmes. Exemple: lorsqu’on lance deux dés: 1 + 6 = 2 + 5 = 3 + 4 = 7, mais seulement 1 + 1 = 2 et seulement 6 + 6 = 12.

C'est-à-dire que même si vous obtenez l'un des six chiffres avec la même probabilité lorsque vous lancez un dé, les extrêmes sont moins probables que les valeurs moyennes dans les sommes de plusieurs dés.


20

L'intuition est une chose délicate. C'est encore plus délicat avec la théorie dans nos mains attachées derrière notre dos.

Le CLT consiste en une somme de petites perturbations indépendantes. Les "sommes" au sens de l'échantillon signifient, "minuscules" au sens de variance finie (de la population) et "perturbations" au sens de plus / moins autour d'une valeur centrale (population).

Pour moi, le dispositif qui intéresse le plus directement l' intuition est le quinconce, ou "boîte de Galton", voir Wikipedia (pour "machine à haricots"?). L'idée est de faire rouler une toute petite boule sur le visage d'un tableau orné d'un treillis d'épingles également espacées. En descendant, le ballon dévie à droite et à gauche (... au hasard, indépendamment) et se ramasse en bas. Au fil du temps, nous voyons une belle forme de monticule en forme de cloche juste devant nos yeux.

Le CLT dit la même chose. C'est une description mathématique de ce phénomène (plus précisément, le quinconce est une preuve physique de l'approximation normale de la distribution binomiale). En gros, le CLT dit que tant que notre population n’est pas trop mal conduite (c’est-à-dire si les queues du fichier PDF sont suffisamment minces), la moyenne de l’échantillon (correctement dimensionnée) se comporte exactement comme cette petite balle qui rebondit sur le visage. le quinconce: il tombe parfois à gauche, parfois à droite, mais la plupart du temps, il atterrit tout autour du milieu, dans une jolie forme de cloche.

La majesté de la CLT (pour moi) est que la forme de la population sous-jacente est sans importance. La forme ne joue un rôle que dans la mesure où elle délègue le temps d'attente (au sens de la taille de l'échantillon).


17

Une observation concernant le CLT peut être la suivante. Lorsque vous avez la somme d’un grand nombre de composantes aléatoires, si l’on est "plus petit que la normale", cela est généralement compensé par le fait que certaines des autres composantes sont "plus grandes que la normale". En d'autres termes, les écarts négatifs et les écarts positifs par rapport à la composante signifient une annulation dans la somme. Personnellement, je n’ai aucune idée précise de la raison pour laquelle les écarts restants forment exactement une distribution qui semble de plus en plus normale plus vous avez de termes.

S=X1+X2++Xn

Il existe de nombreuses versions du CLT, certaines plus fortes que d'autres, certaines avec des conditions moins rigoureuses, telles qu'une dépendance modérée entre les termes et / ou des distributions non identiques pour les termes. Dans le plus simple à prouver les versions de la CLT, la preuve est généralement basée sur la fonction génératrice des moments (ou Laplace-Stieltjes transformer ou d' une autre transformation appropriés de la densité) de la somme . Écrire cela comme une extension de Taylor et ne garder que le terme le plus dominant vous donne la fonction générateur de moment de la distribution normale. Donc, pour moi personnellement, la normalité est quelque chose qui découle de plusieurs équations et je ne peux fournir aucune autre intuition que celle-là.S

Il convient de noter cependant que la distribution de la somme, jamais vraiment est normalement distribué, ni ne le prétend CLT qu'il serait. Si est fini, il reste une certaine distance par rapport à la distribution normale et si la moyenne et la variance sont également infinies. Dans ce dernier cas, vous pouvez prendre la moyenne de la somme infinie, mais vous obtenez alors un nombre déterministe sans aucune variance, qui pourrait difficilement être étiqueté comme "normalement distribué".nn=

Cela peut poser des problèmes avec les applications pratiques du CLT. Habituellement, si vous êtes intéressé par la distribution de près de son centre, le CLT fonctionne bien. Cependant, la convergence vers la normale n’est pas uniforme partout et plus vous vous éloignerez du centre, plus vous aurez besoin de termes pour obtenir une approximation raisonnable.S/n

Avec toute la "sainteté" du théorème de la limite centrale dans les statistiques, ses limitations sont souvent trop facilement négligées. Ci-dessous, je présente deux diapositives de mon cours en soulignant que CLT échoue complètement dans la queue, dans tous les cas d'utilisation pratique. Malheureusement, beaucoup de gens utilisent spécifiquement le CLT pour estimer les probabilités finales, sciemment ou non.

entrez la description de l'image ici entrez la description de l'image ici


5
C'est un excellent conseil matériel et sage. Malheureusement, je ne peux pas y croire, car les affirmations de "Cette normalité est un artefact mathématique et je pense qu'il n'est pas utile de rechercher une vérité ou une intuition plus profonde derrière celle-ci" sont profondément troublantes. Ils semblent suggérer que (1) nous ne devrions pas compter sur les mathématiques pour nous aider théoriquement et (2) il ne sert à rien de comprendre les mathématiques en premier lieu. J'espère que d'autres articles dans ce fil vont déjà beaucoup à réfuter la deuxième affirmation. Le premier est tellement contradictoire qu'il ne mérite guère d'analyse supplémentaire.
whuber

2
@ Whuber. Vous avez raison, je suis peut-être en dehors de ma ligue. Je vais éditer.
StijnDeVuyst

3
Merci d’avoir reconsidéré la partie problématique, et un gros +1 pour le reste.
whuber

7

Cette réponse espère donner une signification intuitive du théorème de la limite centrale, en utilisant des techniques de calcul simples (développement de Taylor d'ordre 3). Voici le contour:

  1. Que dit le CLT
  2. Une preuve intuitive du CLT en utilisant un calcul simple
  3. Pourquoi la distribution normale?

Nous mentionnerons la distribution normale à la toute fin; parce que le fait que la distribution normale finisse par apparaître ne supporte pas beaucoup d'intuition.

1. Que dit le théorème de la limite centrale? Plusieurs versions du CLT

Il existe plusieurs versions euivalentes du CLT. La déclaration classique du CLT indique que, pour tout réel et toute séquence de variables aléatoires indépendantes avec moyenne nulle et la variance 1, Pour comprendre ce qui est universel et intuitif à propos du CLT, oublions la limite un instant. L’instruction ci-dessus indique que si et sont deux séquences de variables aléatoires indépendantes ayant chacune une moyenne nulle et une variance 1, alors xX1,,Xn

P(X1++Xnnx)n+xet2/22πdt.
X1.,,XnZ1,,Znfxf(t)={1 si t<x0 si tx.
E[f(X1++Xnn)]E[f(Z1++Znn)]n+0
pour chaque fonction indicatrice du formulaire, pour certains réels fixes , L'affichage précédent incarne le fait que la limite est la même, quelles que soient les distributions particulières de et , à condition que les variables aléatoires soient indépendantes avec une moyenne nulle, la variance un.fx
f(t)={1 if t<x0 if tx.
X1,,XnZ1,,Zn

Certaines autres versions du CLT mentionnent la classe de fonctions de Lipschtiz limitées par 1; d'autres versions du CLT mentionnent la classe des fonctions lissées avec une dérivée bornée d'ordre . Considérons deux séquences et comme ci-dessus et, pour une fonction , le résultat de la convergence (CONV)kX1,,XnZ1,,Znf

(CONV)E[f(X1++Xnn)]E[f(Z1++Znn)]n+0

Il est possible d'établir l'équivalence ("si et seulement si") entre les déclarations suivantes:

  1. (CONV) ci-dessus est valable pour toutes les fonctions indicatrices de la forme pour et pour pour certains réels fixes .ff(t)=1t<xf(t)=0txx
  2. (CONV) est valable pour toutes les fonctions de Lipschitz bornée .f:RR
  3. (CONV) est valable pour chaque fonction lisse (ie, ) avec un support compact.C
  4. (CONV) est valable pour chaque fonction trois fois continuellement différentiables avec .fsupxR|f(x)|1

Chacun des 4 points ci-dessus indique que la convergence est valable pour une grande classe de fonctions. Par un argument d'approximation technique, on peut montrer que les quatre points ci-dessus sont équivalents, nous renvoyons le lecteur au chapitre 7, page 77 du livre de David Pollard Un guide de l'utilisateur pour mesurer les probabilités théoriques à partir duquel cette réponse est fortement inspirée.

Notre hypothèse pour le reste de cette réponse ...

Nous supposerons que pour une constante , ce qui correspond au point 4 ci-dessus. Nous supposerons également que les variables aléatoires ont un troisième moment fini et limité: et sont finis.supxR|f(x)|CC>0E[|Xi|3]E[|Zi|3]

2. La valeur de est universelle: elle ne dépend pas de la distribution deE[f(X1++Xnn)]X1,...,Xn

Montrons que cette quantité est universelle (jusqu’à un petit terme d’erreur), en ce sens qu’elle ne dépend pas de la collection de variables aléatoires indépendantes fournie. Prenons et deux séquences de variables aléatoires indépendantes, chacune avec une moyenne 0, une variance 1 et un troisième moment fini.X1,,XnZ1,,Zn

L'idée est de remplacer de manière itérative par dans l'une des quantités et de contrôler la différence par calcul élémentaire (l'idée, selon moi, est due à Lindeberg). Par une extension de Taylor, si et alors où etXiZiW=Z1++Zn1h(x)=f(x/n)

h(Z1++Zn1+Xn)=h(W)+Xnh(W)+Xn2h(W)2+Xn3/h(Mn)6h(Z1++Zn1+Zn)=h(W)+Znh(W)+Zn2h(W)2+Zn3h(Mn)6
MnMnsont les points médians donnés par le théorème de la valeur moyenne. En prenant les attentes sur les deux lignes, le terme d'ordre zéro est le même, les termes de premier ordre sont égaux parce que, par l'indépendance de et de , et de même pour la deuxième ligne. Encore une fois par indépendance, les termes du second ordre sont les mêmes dans l'attente. Les seuls termes restants sont ceux du troisième ordre et, dans l’attente, la différence entre les deux lignes est au plus Ici, est une borne supérieure de la troisième dérivée de . Le dénominateur apparaît carXnWE[Xnh(W)]=E[Xn]E[h(W)]=0

(C/6)E[|Xn|3+|Zn|3](n)3.
Cf(n)3h(t)=f(t/n)/(n)3 . Par indépendance, la contribution de dans la somme n'a pas de sens car elle pourrait être remplacée par sans que l'erreur soit supérieure à l'affichage ci-dessus!XnZn

Nous réitérons maintenant le remplacement de par . Si alors Par indépendance de et de , et par indépendance de et deXn1Zn1W~=Z1+Z2++Zn2+Xn

h(Z1++Zn2+Xn1+Xn)=h(W~)+Xn1h(W~)+Xn12h(W~)2+Xn13/h(M~n)6h(Z1++Zn2+Zn1+Xn)=h(W~)+Zn1h(W~)+Zn12h(W~)2+Zn13/h(M~n)6.
Zn1W~Xn1W~, là encore, les termes zéro, premier et deuxième ordre sont égaux en attente pour les deux lignes. La différence d’attente entre les deux lignes est encore au plus Nous continuons à itérer jusqu'à ce que nous tous les par des . En ajoutant les erreurs faites à chacune des étapes, nous obtenons comme

(C/6)E[|Xn1|3+|Zn1|3](n)3.
ZiXin
|E[f(X1++Xnn)]E[f(Z1++Znn)]|n(C/6)maxi=1,,nE[|Xi|3+|Zi|3](n)3.
naugmente, la partie droite devient arbitrairement petite si le troisième moment de ou des variables aléatoires sont finis (supposons que ce soit le cas). Cela signifie que les attentes de gauche se rapprochent arbitrairement, peu importe si la distribution de est loin de celle de . Par indépendance, la contribution de chaque dans la somme n'a pas de sens car elle pourrait être remplacée par sans encourir d'erreur supérieure à . Et remplacer tous les par les ne change pas la quantité de plus de .X1,,XnZ1,,ZnXiZiO(1/(n)3)XiZiO(1/n)

L'attente est donc universelle, elle ne dépend pas de la distribution de . D'autre part, l'indépendance et était d'une importance capitale pour les limites ci-dessus.E[f(X1++Xnn)]X1,,XnE[Xi]=E[Zi]=0,E[Zi2]=E[Xi2]=1

3. Pourquoi la distribution normale?

Nous avons vu que l'attente sera la même quelle que soit la distribution de , jusqu'à un petite erreur d'ordre .E[f(X1++Xnn)]XiO(1/n)

Mais pour les applications, il serait utile de calculer cette quantité. Il serait également utile d’obtenir une expression plus simple pour cette quantité .E[f(X1++Xnn)]

Comme cette quantité est la même pour toutes les collections , nous pouvons simplement sélectionner une collection spécifique telle que la distribution soit facile à calculer ou facile à mémoriser.X1,,Xn(X1++Xn)/n

Pour la distribution normale , il arrive que cette quantité devienne vraiment simple. En effet, si sont iid alors a aussi la distribution et elle ne dépend pas de ! Donc si , alors et par l'argument ci-dessus, pour toute collection de variables aléatoires indépendantes avec , puisN(0,1)Z1,,ZnN(0,1)Z1++ZnnN(0,1)nZN(0,1)

E[f(Z1++Znn)]=E[f(Z)],
X1,,XnE[Xi]=0,E[Xi2]=1

|E[f(X1++Xnn)]E[f(Z)|supxR|f(x)|maxi=1,,nE[|Xi|3+|Z|3]6n.

Vous semblez affirmer une loi des grands nombres plutôt que du CLT.
whuber

1
Je ne suis pas sûr de savoir pourquoi tu dirais cela, whuber. Ce qui précède donne une preuve intuitive que converge vers où pour une grande classe de fonctions . C'est le CLT. E[f(Z)]ZN(0,1)fE[f((X1+...+Xn)/n)]E[f(Z)]ZN(0,1)f
Jlewk

2
Je vois ce que tu veux dire. Ce qui me fait réfléchir, c'est que votre assertion ne concerne que les attentes et non les distributions, alors que le CLT tire des conclusions sur une distribution limite. L'équivalence entre les deux pourrait ne pas être immédiatement évident pour beaucoup. Puis-je suggérer que vous établissiez un lien explicite entre votre déclaration et les déclarations habituelles du CLT en termes de limitation des distributions? (+1 au fait: merci d'avoir élaboré cet argument.)
whuber

1

J'ai renoncé à essayer de créer une version intuitive et quelques simulations. J'en présente un qui simule un Quincunx et d'autres qui montrent notamment comment même une distribution asymétrique du temps de réaction brut deviendra normale si vous collectez suffisamment de RT par sujet. Je pense qu'ils aident mais ils sont nouveaux dans ma classe cette année et je n'ai pas encore noté le premier test.

Une chose que j'estimais positive était de pouvoir également montrer la loi des grands nombres. Je pourrais montrer à quel point les choses sont variables avec des échantillons de petite taille, puis comment elles se stabilisent avec des échantillons de grande taille. Je fais aussi beaucoup d'autres démos en grand nombre. Je peux montrer l'interaction dans le Quincunx entre le nombre de processus aléatoires et le nombre d'échantillons.

(Il s'est avéré que ne pas pouvoir utiliser une craie ou un tableau blanc dans ma classe était une bénédiction)


Bonjour John: content de vous revoir avec cet article après presque neuf ans! Il serait intéressant de lire les expériences que vous avez eues entre-temps avec votre utilisation de simulations pour enseigner l’idée du CLT et des LLN.
whuber

J'ai arrêté d'enseigner cette classe un an plus tard, mais l'instructeur suivant a repris l'idée de la simulation. En fait, il porte beaucoup plus loin et a développé une séquence d'applications brillantes et demande aux étudiants de jouer avec des simulations pour des tas de choses dans la classe de 250 personnes. Autant que je puisse en juger d'après l'enseignement de la classe supérieure, les étudiants semblent en tirer beaucoup. La différence entre ses étudiants et ceux des classes de base équivalentes est notable. (mais, bien sûr, il y a beaucoup de variables non contrôlées là-bas)
John

Merci John. Il est si inhabituel d’obtenir des commentaires même anecdotiques sur les performances durables des élèves après la fin d’un cours que je trouve que même cette information limitée est intéressante.
whuber

-8

Lorsque vous ajoutez de nombreux histogrammes de distributions aléatoires, vous conservez la forme de la distribution normale car tous les histogrammes individuels ont déjà cette forme ou vous obtenez cette forme, car les fluctuations dans les histogrammes individuels ont tendance à s’annuler si vous ajoutez une valeur importante. nombre d'histogrammes. Un histogramme d'une distribution aléatoire d'une variable est déjà approximativement distribué de manière à ce que les gens aient commencé à appeler la distribution normale car elle est si commune et constitue un microcosme du théorème de la limite centrale.

Ce n'est pas toute l'histoire, mais je pense que c'est aussi intuitif que possible.


2
Votre description d'une "distribution normale" sonne plutôt comme une version discrète de la double exponentielle, qui ne ressemble même pas à distance à une distribution normale gaussienne (sauf que les deux sont unimodaux et symétriques). L'histogramme des pièces ne contient pas de barres qui diminuent d'un facteur à chaque pas! Cela donne à penser que cette explication pourrait contenir quelques difficultés qui ont été corroborées par un appel à «l'intuition». 2
whuber

5
Cette réponse est surtout un non-sens. Aucun nombre de lancers de pièces justes ne se traduira par une distribution du nombre de têtes qui a des probabilités ; en effet ce n'est même pas une fonction de masse de probabilité! Le nombre de têtes d'affilée n'a pas non plus rien à voir avec la question. 18,14,12,14,18
Dilip Sarwate
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.