Considérons la somme de


40

Je m'interroge sur celui-ci depuis un moment. Je trouve cela un peu étrange de voir comment cela se produit brusquement. Fondamentalement, pourquoi n'avons-nous besoin que de trois uniformes que comme il le fait? Et pourquoi le lissage a-t-il lieu si rapidement?Zn

Z2 :

2

Z3 :

3

(images volées sans vergogne sur le blog de John D. Cook: http://www.johndcook.com/blog/2009/02/12/sums-of-un-uniform-random-values/ )

Pourquoi ne faut-il pas, disons, quatre uniformes? Ou cinq? Ou...?


11
Eh bien, pour être si simple que pour être facile, parce que la somme de 3 uniformes a des segments quadratiques dans son pf, et une fois que vous avez deux uniformes ou plus, vous obtenez un sommet à la moyenne. Un pic quadratique est "lisse" ... et les joints entre les pièces quadratiques sont à 1 et 2, il ne peut donc pas se tordre à 1,5; il y a d'autres moyens d'arriver à la même conclusion
Glen_b -Reinstate Monica

Réponses:


71

Nous pouvons adopter différentes approches, chacune d’elles pouvant sembler intuitive à certaines personnes et moins intuitive pour d’autres. Pour s'adapter à cette variation, cette réponse passe en revue plusieurs de ces approches, couvrant les principales divisions de la pensée mathématique - analyse (l'infini et l'infiniment petit), géométrie / topologie (relations spatiales) et algèbre (modèles formels de manipulation symbolique) - comme ainsi que la probabilité elle-même. Cela aboutit à une observation qui unifie les quatre approches, démontre qu'il y a une vraie question à laquelle il faut répondre ici et montre exactement quel est le problème. Chaque approche fournit, à sa manière, un aperçu plus approfondi de la nature des formes des fonctions de distribution de probabilité des sommes de variables uniformes indépendantes.


Contexte

La distribution Uniform [0,1] a plusieurs descriptions de base. Quand a une telle distribution,X

  1. La chance que X dans un ensemble mesurable A n’est que la mesure (longueur) de , écrit | A [ 0 , 1 ] | .A[0,1]|A[0,1]|

  2. A partir de là, il est immédiat que la fonction de distribution cumulative (CDF) soit

    FX(x)=Pr(Xx)=|(,x][0,1]|=|[0,min(x,1)]|={0x<0x0x11x>1.

    CDF

  3. La fonction de densité de probabilité (PDF), qui est la dérivée du CDF, est pour 0 x 1 et f XfX(x)=10x1 sinon. (Il est indéfini à 0 et 1. )fX(x)=001

    PDF


Intuition à partir de fonctions caractéristiques (Analyse)

La fonction caractéristique (CF) de toute variable aléatoire est l’espérance de exp ( i tX (où i est l'unité imaginaire, i 2 = - 1 ). En utilisant le PDF d’une distribution uniforme, nous pouvons calculerexp(itX)ii2=1

ϕX(t)=exp(itx)fX(x)dx=01exp(itx)dx=exp(itx)it|x=0x=1=exp(it)1it.

La fibrose kystique est une (version du) transformée de Fourier du PDF, . Les théorèmes les plus fondamentaux sur les transformées de Fourier sont les suivants:ϕ(t)=f^(t)

  • La FC d'une somme de variables indépendantes est le produit de leurs FC.X+Y

  • Lorsque le PDF original f est continue et est bornée, f peut être récupéré à partir du CF φ par une version très proche de la transformée de Fourier,Xfϕ

f(x)=ϕˇ(x)=12πexp(ixt)ϕ(t)dt.
  • Lorsque est différentiable, sa dérivée peut être calculée sous le signe de l'intégrale:f

    f(x)=ddx12πexp(ixt)ϕ(t)dt=i2πtexp(ixt)ϕ(t)dt.

    Pour que ceci soit bien défini, la dernière intégrale doit absolument converger; C'est,

    |texp(ixt)ϕ(t)|dt=|t||ϕ(t)|dt

    doit converger vers une valeur finie. Inversement, quand elle converge, la dérivée existe partout grâce à ces formules d'inversion.

Il est à présent clair à quel point le fichier PDF pour une somme de variables uniformes est différentiable: à partir du premier point, le FC de la somme des variables iid est le FC de l’une d’entre elles élevéen puissance, ici égale à ( exp ( i t ) - 1 ) n / ( i t ) n . Le numérateur est borné (il consiste en ondes sinusoïdales) tandis que le dénominateur est O ( t n ) . On peut multiplier un tel intégrande par nth(exp(it)1)n/(it)nO(tn) et il convergera encore absolument quand s < nts et convergent conditionnellement lorsque s = n - 1 . Ainsi, une application répétée de la troisième puce montre que le PDF pour la somme de n variables variables uniformes sera continuellement n - 2 fois différentiable et, dans la plupart des endroits, n - 1 fois différentiable.s<n1s=n1nn2n1

CF for n=10

La courbe ombrée en bleu est un graphique en log-log de la valeur absolue de la partie réelle de la FC de la somme de variables uniformes. La ligne pointillée rouge est une asymptote; sa pente est de - 10 , ce qui montre que le PDF est 10 - 2 = 8 fois différentiable. Pour référence, la courbe grise représente la partie réelle du CF pour une fonction gaussienne de forme similaire (un PDF normal).n=1010102=8


Intuition de Probabilité

Soit et X des variables aléatoires indépendantes où X a un uniforme [ 0 ,YXXdistribution 1 ] . Considérons un intervalle étroit ( t , t + d t ] . Nous décomposons le risque que X + Y ( t , t + d t ] en un chance que Y soit suffisamment proche de cet intervalle fois le risque que X soit juste le droit. taille pour placer X + Y[0,1](t,t+dt]X+Y(t,t+dt]YXX+Ydans cet intervalle, étant donné que est assez proche:Y

fX+Y(t)dt=Pr(X+Y(t,t+dt])=Pr(X+Y(t,t+dt]|Y(t1,t+dt])Pr(Y(t1,t+dt])=Pr(X(tY,tY+dt]|Y(t1,t+dt])(FY(t+dt)FY(t1))=1dt(FY(t+dt)FY(t1)).

L'égalité finale vient de l'expression pour le PDF de . Diviser les deux côtés par d t et prendre la limite comme suit : d t 0 donneXdtdt0

fX+Y(t)=FY(t)FY(t1).

En d'autres termes, l'ajout d'une variable uniforme X à une variable quelconque Y modifie le pdf f Y en un CDF différencié F Y ( t ) - F Y ( t - 1 ) . Comme le PDF est la dérivée du CDF, cela implique que chaque fois que nous ajoutons une variable uniforme indépendante à Y , le PDF résultant est une fois plus différentiable qu'avant.[0,1]XYfYFY(t)FY(t1)Y

Appliquons cette idée, en commençant par une variable uniforme . Le PDF original n'est pas différentiable à 0 ou 1 : il y est discontinu. Le PDF de Y + X n'est pas différentiables à 0 , 1 ou 2 , mais il doit être continu à ces points, car il est la différence de PDF du Intégrales de Y . Ajouter une autre variable uniforme indépendante X 2 : le PDF de Y + X + X 2 est différentiable à 0 , 1 , 2Y01Y+X012YX2Y+X+X2 012, et mais il n’existe pas nécessairement de dérivées secondes à ces points. Etc.3


Intuition de la géométrie

tn[0,1]nx1+x2++xnt. The situation for n=3 variates is shown here, with t set at 1/2, 3/2, and then 5/2.

3D cube

t0nHn(t):x1+x2++xn=t crosses vertices at t=0, t=1,,t=n. At each time the shape of the cross section changes: in the figure it first is a triangle (a 2-simplex), then a hexagon, then a triangle again. Why doesn't the PDF have sharp bends at these values of t?

tHn(t) cuts off an n1-simplex. All n1 dimensions of the simplex are directly proportional to t, whence its "area" is proportional to tn1. Some notation for this will come in handy later. Let θ be the "unit step function,"

θ(x)={0x<01x0.

If it were not for the presence of the other corners of the hypercube, this scaling would continue indefinitely. A plot of the area of the n1-simplex would look like the solid blue curve below: it is zero at negative values and equals tn1/(n1)! at the positive one, conveniently written θ(t)tn1/(n1)!. It has a "kink" of order n2 at the origin, in the sense that all derivatives through order n3 exist and are continuous, but that left and right derivatives of order n2 exist but do not agree at the origin.

(The other curves shown in this figure are 3θ(t1)(t1)2/2! (red), 3θ(t2)(t2)2/2! (gold), and θ(t3)(t3)2/2! (black). Their roles in the case n=3 are discussed further below.)

Simple area plot

To understand what happens when t crosses 1, let's examine in detail the case n=2, where all the geometry happens in a plane. We may view the unit "cube" (now just a square) as a linear combination of quadrants, as shown here:

Quadrants

The first quadrant appears in the lower left panel, in gray. The value of t is 1.5, determining the diagonal line shown in all five panels. The CDF equals the yellow area shown at right. This yellow area is comprised of:

  1. The triangular gray area in the lower left panel,

  2. minus the triangular green area in the upper left panel,

  3. minus the triangular red area in the low middle panel,

  4. plus any blue area in the upper middle panel (but there isn't any such area, nor will there be until t exceeds 2).

Every one of these 2n=4 areas is the area of a triangle. The first one scales like tn=t2, the next two are zero for t<1 and otherwise scale like (t1)n=(t1)2, and the last is zero for t<2 and otherwise scales like (t2)n. This geometric analysis has established that the CDF is proportional to θ(t)t2θ(t1)(t1)2θ(t1)(t1)2+θ(t2)(t2)2 = θ(t)t22θ(t1)(t1)2+θ(t2)(t2)2; equivalently, the PDF is proportional to the sum of the three functions θ(t)t, 2θ(t1)(t1), and θ(t2)(t2) (each of them scaling linearly when n=2). The left panel of this figure shows their graphs: evidently, they are all versions of the original graph θ(t)t, but (a) shifted by 0, 1, and 2 units to the right and (b) rescaled by 1, 2, and 1, respectively.

Graphs for n=2

The right panel shows the sum of these graphs (the solid black curve, normalized to have unit area: this is precisely the angular-looking PDF shown in the original question.

Now we can understand the nature of the "kinks" in the PDF of any sum of iid uniform variables. They are all exactly like the "kink" that occurs at 0 in the function θ(t)tn1, possibly rescaled, and shifted to the integers 1,2,,n corresponding to where the hyperplane Hn(t) crosses the vertices of the hypercube. For n=2, this is a visible change in direction: the right derivative of θ(t)t at 0 is 0 while its left derivative is 1. For n=3, this is a continuous change in direction, but a sudden (discontinuous) change in second derivative. For general n, there will be continuous derivatives through order n2 but a discontinuity in the n1st derivative.


Intuition from Algebraic Manipulation

The integration to compute the CF, the form of the conditional probability in the probabilistic analysis, and the synthesis of a hypercube as a linear combination of quadrants all suggest returning to the original uniform distribution and re-expressing it as a linear combination of simpler things. Indeed, its PDF can be written

fX(x)=θ(x)θ(x1).

Let us introduce the shift operator Δ: it acts on any function f by shifting its graph one unit to the right:

(Δf)(x)=f(x1).

Formally, then, for the PDF of a uniform variable X we may write

fX=(1Δ)θ.

The PDF of a sum of n iid uniforms is the convolution of fX with itself n times. This follows from the definition of a sum of random variables: the convolution of two functions f and g is the function

(fg)(x)=f(xy)g(y)dy.

It is easy to verify that convolution commutes with Δ. Just change the variable of integration from y to y+1:

(f(Δg))=f(xy)(Δg)(y)dy=f(xy)g(y1)dy=f((x1)y)g(y)dy=(Δ(fg))(x).

For the PDF of the sum of n iid uniforms, we may now proceed algebraically to write

f=fXn=((1Δ)θ)n=(1Δ)nθn

(where the n "power" denotes repeated convolution, not pointwise multiplication!). Now θn is a direct, elementary integration, giving

θn(x)=θ(x)xn1n1!.

The rest is algebra, because the Binomial Theorem applies (as it does in any commutative algebra over the reals):

f=(1Δ)nθn=i=0n(1)i(ni)Δiθn.

Because Δi merely shifts its argument by i, this exhibits the PDF f as a linear combination of shifted versions of θ(x)xn1, exactly as we deduced geometrically:

f(x)=1(n1)!i=0n(1)i(ni)(xi)n1θ(xi).

(John Cook quotes this formula later in his blog post, using the notation (xi)+n1 for (xi)n1θ(xi).)

Accordingly, because xn1 is a smooth function everywhere, any singular behavior of the PDF will occur only at places where θ(x) is singular (obviously just 0) and at those places shifted to the right by 1,2,,n. The nature of that singular behavior--the degree of smoothness--will therefore be the same at all n+1 locations.

Illustrating this is the picture for n=8, showing (in the left panel) the individual terms in the sum and (in the right panel) the partial sums, culminating in the sum itself (solid black curve):

Plot for n=8


Closing Comments

It is useful to note that this last approach has finally yielded a compact, practical expression for computing the PDF of a sum of n iid uniform variables. (A formula for the CDF is similarly obtained.)

The Central Limit Theorem has little to say here. After all, a sum of iid Binomial variables converges to a Normal distribution, but that sum is always discrete: it never even has a PDF at all! We should not hope for any intuition about "kinks" or other measures of differentiability of a PDF to come from the CLT.


12
(+1) Fantastic! Now, how long did it take for you to put all of this together?!
cardinal

13
@Cardinal This was the last question I read before losing power last Monday. During the ensuing week, the long dark evenings provided opportunities to think it through :-) and, for amusement, to develop multiple answers. After the power was restored last weekend, it was just a matter of finding some time to make the illustrations and write it all up (which took longer than expected, I confess). I hope that perhaps some of this thread might serve as a reference for related future questions about sums of random variables.
whuber

1
Wow. I wish I could 'favourite' this answer.
Rhubbarb

2
whuber, this is absolutely amazing. I never realized how deep such a simple question could be. It's gonna take me a while to grok your answer, but for now, thank you so much!
tetragrammaton

6
I will violate SE policy on comments, by saying that we (all of the crossvalidate.com) should bribe your power company to cut off the power more often :)
mpiktas

1

You could argue that the probability density function of a uniform random variable is finite,

so its integral the cumulative density function of a uniform random variable is continuous,

so the probability density function of the sum of two uniform random variables is continuous,

so its integral the cumulative density function of the sum of two uniform random variables is smooth (continuously differentiable),

so the probability density function of the sum of three uniform random variables is smooth.


1

I think the more surprising thing is that you get the sharp peak for n=2.

The Central Limit Theorem says that for large enough sample sizes the distribution of the mean (and the sum is just the mean times n, a fixed constant for each graph) will be approximately normal. It turns out that the uniform distribution is really well behaved with respect to the CLT (symmetric, no heavy tails (well not much of any tails), no possibility of outliers), so for the uniform the sample size needed to be "large enough" is not very big (around 5 or 6 for a good approximation), you are already seeing the OK approximation at n=3.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.