Cette réponse espère donner une signification intuitive du théorème de la limite centrale, en utilisant des techniques de calcul simples (développement de Taylor d'ordre 3). Voici le contour:
- Que dit le CLT
- Une preuve intuitive du CLT en utilisant un calcul simple
- Pourquoi la distribution normale?
Nous mentionnerons la distribution normale à la toute fin; parce que le fait que la distribution normale finisse par apparaître ne supporte pas beaucoup d'intuition.
1. Que dit le théorème de la limite centrale? Plusieurs versions du CLT
Il existe plusieurs versions euivalentes du CLT. La déclaration classique du CLT indique que, pour tout réel et toute séquence de variables aléatoires indépendantes avec moyenne nulle et la variance 1,
Pour comprendre ce qui est universel et intuitif à propos du CLT, oublions la limite un instant. L’instruction ci-dessus indique que si et sont deux séquences de variables aléatoires indépendantes ayant chacune une moyenne nulle et une variance 1, alors
xX1,⋯,Xn
P(X1+⋯+Xnn−−√≤x)→n→+∞∫x−∞e−t2/22π−−√dt.
X1.,…,XnZ1,…,Znfxf(t)={1 si t<x0 si t≥x.E[f(X1+⋯+Xnn√)]−E[f(Z1+⋯+Znn√)]→n→+∞0
pour chaque fonction indicatrice du formulaire, pour certains réels fixes ,
L'affichage précédent incarne le fait que la limite est la même, quelles que soient les distributions particulières de et , à condition que les variables aléatoires soient indépendantes avec une moyenne nulle, la variance un.
fxf(t)={1 if t<x0 if t≥x.
X1,…,XnZ1,…,Zn
Certaines autres versions du CLT mentionnent la classe de fonctions de Lipschtiz limitées par 1; d'autres versions du CLT mentionnent la classe des fonctions lissées avec une dérivée bornée d'ordre . Considérons deux séquences et comme ci-dessus et, pour une fonction , le résultat de la convergence (CONV)kX1,…,XnZ1,…,Znf
E[f(X1+⋯+Xnn√)]−E[f(Z1+⋯+Znn√)]→n→+∞0(CONV)
Il est possible d'établir l'équivalence ("si et seulement si") entre les déclarations suivantes:
- (CONV) ci-dessus est valable pour toutes les fonctions indicatrices de la forme pour et pour pour certains réels fixes .ff(t)=1t<xf(t)=0t≥xx
- (CONV) est valable pour toutes les fonctions de Lipschitz bornée .f:R→R
- (CONV) est valable pour chaque fonction lisse (ie, ) avec un support compact.C∞
- (CONV) est valable pour chaque fonction trois fois continuellement différentiables avec .fsupx∈R|f′′′(x)|≤1
Chacun des 4 points ci-dessus indique que la convergence est valable pour une grande classe de fonctions. Par un argument d'approximation technique, on peut montrer que les quatre points ci-dessus sont équivalents, nous renvoyons le lecteur au chapitre 7, page 77 du livre de David Pollard Un guide de l'utilisateur pour mesurer les probabilités théoriques à partir duquel cette réponse est fortement inspirée.
Notre hypothèse pour le reste de cette réponse ...
Nous supposerons que pour une constante , ce qui correspond au point 4 ci-dessus. Nous supposerons également que les variables aléatoires ont un troisième moment fini et limité: et
sont finis.supx∈R|f′′′(x)|≤CC>0E[|Xi|3]E[|Zi|3]
2. La valeur de est universelle: elle ne dépend pas de la distribution deE[f(X1+⋯+Xnn√)]X1,...,Xn
Montrons que cette quantité est universelle (jusqu’à un petit terme d’erreur), en ce sens qu’elle ne dépend pas de la collection de variables aléatoires indépendantes fournie. Prenons et deux séquences de variables aléatoires indépendantes, chacune avec une moyenne 0, une variance 1 et un troisième moment fini.X1,…,XnZ1,…,Zn
L'idée est de remplacer de manière itérative par dans l'une des quantités et de contrôler la différence par calcul élémentaire (l'idée, selon moi, est due à Lindeberg). Par une extension de Taylor, si et alors
où etXiZiW=Z1+⋯+Zn−1h(x)=f(x/n−−√)h(Z1+⋯+Zn−1+Xn)h(Z1+⋯+Zn−1+Zn)=h(W)+Xnh′(W)+X2nh′′(W)2+X3n/h′′′(Mn)6=h(W)+Znh′(W)+Z2nh′′(W)2+Z3nh′′′(M′n)6
MnM′nsont les points médians donnés par le théorème de la valeur moyenne. En prenant les attentes sur les deux lignes, le terme d'ordre zéro est le même, les termes de premier ordre sont égaux parce que, par l'indépendance de et de , et de même pour la deuxième ligne. Encore une fois par indépendance, les termes du second ordre sont les mêmes dans l'attente. Les seuls termes restants sont ceux du troisième ordre et, dans l’attente, la différence entre les deux lignes est au plus
Ici, est une borne supérieure de la troisième dérivée de . Le dénominateur apparaît carXnWE[Xnh′(W)]=E[Xn]E[h′(W)]=0
(C/6)E[|Xn|3+|Zn|3](n−−√)3.
Cf′′′(n−−√)3h′′′(t)=f′′′(t/n−−√)/(n−−√)3 .
Par indépendance, la contribution de dans la somme n'a pas de sens car elle pourrait être remplacée par sans que l'erreur soit supérieure à l'affichage ci-dessus!XnZn
Nous réitérons maintenant le remplacement de par . Si alors
Par indépendance de et de , et par indépendance de et deXn−1Zn−1W~=Z1+Z2+⋯+Zn−2+Xnh(Z1+⋯+Zn−2+Xn−1+Xn)h(Z1+⋯+Zn−2+Zn−1+Xn)=h(W~)+Xn−1h′(W~)+X2n−1h′′(W~)2+X3n−1/h′′′(M~n)6=h(W~)+Zn−1h′(W~)+Z2n−1h′′(W~)2+Z3n−1/h′′′(M~n)6.
Zn−1W~Xn−1W~, là encore, les termes zéro, premier et deuxième ordre sont égaux en attente pour les deux lignes. La différence d’attente entre les deux lignes est encore au plus
Nous continuons à itérer jusqu'à ce que nous tous les par des . En ajoutant les erreurs faites à chacune des étapes, nous obtenons
comme
(C/6)E[|Xn−1|3+|Zn−1|3](n−−√)3.
ZiXin∣∣E[f(X1+⋯+Xnn√)]−E[f(Z1+⋯+Znn√)]∣∣≤n(C/6)maxi=1,…,nE[|Xi|3+|Zi|3](n−−√)3.
naugmente, la partie droite devient arbitrairement petite si le troisième moment de ou des variables aléatoires sont finis (supposons que ce soit le cas). Cela signifie que les attentes de gauche se rapprochent arbitrairement, peu importe si la distribution de est loin de celle de .
Par indépendance, la contribution de chaque dans la somme n'a pas de sens car elle pourrait être remplacée par sans encourir d'erreur supérieure à .
Et remplacer tous les par les ne change pas la quantité de plus de .
X1,…,XnZ1,…,ZnXiZiO(1/(n−−√)3)XiZiO(1/n−−√)
L'attente est donc universelle, elle ne dépend pas de la distribution de . D'autre part, l'indépendance et était d'une importance capitale pour les limites ci-dessus.E[f(X1+⋯+Xnn√)]X1,…,XnE[Xi]=E[Zi]=0,E[Z2i]=E[X2i]=1
3. Pourquoi la distribution normale?
Nous avons vu que l'attente sera la même quelle que soit la distribution de , jusqu'à un petite erreur d'ordre .E[f(X1+⋯+Xnn√)]XiO(1/n−−√)
Mais pour les applications, il serait utile de calculer cette quantité. Il serait également utile d’obtenir une expression plus simple pour cette quantité .E[f(X1+⋯+Xnn√)]
Comme cette quantité est la même pour toutes les collections , nous pouvons simplement sélectionner une collection spécifique telle que la distribution soit facile à calculer ou facile à mémoriser.X1,…,Xn(X1+⋯+Xn)/n−−√
Pour la distribution normale , il arrive que cette quantité devienne vraiment simple. En effet, si sont iid alors a aussi la distribution et elle ne dépend pas de ! Donc si , alors
et par l'argument ci-dessus, pour toute collection de variables aléatoires indépendantes avec , puisN(0,1)Z1,…,ZnN(0,1)Z1+⋯+Znn√N(0,1)nZ∼N(0,1)
E[f(Z1+⋯+Znn−−√)]=E[f(Z)],
X1,…,XnE[Xi]=0,E[X2i]=1
∣∣∣E[f(X1+⋯+Xnn−−√)]−E[f(Z)∣∣∣≤supx∈R|f′′′(x)|maxi=1,…,nE[|Xi|3+|Z|3]6n−−√.