Nous pouvons adopter différentes approches, chacune d’elles pouvant sembler intuitive à certaines personnes et moins intuitive pour d’autres. Pour s'adapter à cette variation, cette réponse passe en revue plusieurs de ces approches, couvrant les principales divisions de la pensée mathématique - analyse (l'infini et l'infiniment petit), géométrie / topologie (relations spatiales) et algèbre (modèles formels de manipulation symbolique) - comme ainsi que la probabilité elle-même. Cela aboutit à une observation qui unifie les quatre approches, démontre qu'il y a une vraie question à laquelle il faut répondre ici et montre exactement quel est le problème. Chaque approche fournit, à sa manière, un aperçu plus approfondi de la nature des formes des fonctions de distribution de probabilité des sommes de variables uniformes indépendantes.
Contexte
La distribution Uniform [0,1] a plusieurs descriptions de base. Quand a une telle distribution,X
La chance que X dans un ensemble mesurable A n’est que la mesure (longueur) de , écrit | A ∩ [ 0 , 1 ] | .A∩[0,1]|A∩[0,1]|
A partir de là, il est immédiat que la fonction de distribution cumulative (CDF) soit
FX(x)=Pr(X≤x)=|(−∞,x]∩[0,1]|=|[0,min(x,1)]|=⎧⎩⎨⎪⎪0x1x<00≤x≤1x>1.
La fonction de densité de probabilité (PDF), qui est la dérivée du CDF, est pour 0 ≤ x ≤ 1 et f XfX(x)=10≤x≤1 sinon. (Il est indéfini à 0 et 1. )fX(x)=001
Intuition à partir de fonctions caractéristiques (Analyse)
La fonction caractéristique (CF) de toute variable aléatoire est l’espérance de exp ( i tX (où i est l'unité imaginaire, i 2 = - 1 ). En utilisant le PDF d’une distribution uniforme, nous pouvons calculerexp(itX)ii2=−1
ϕX(t)=∫∞−∞exp(itx)fX(x)dx=∫10exp(itx)dx=exp(itx)it∣∣∣x=1x=0=exp(it)−1it.
La fibrose kystique est une (version du) transformée de Fourier du PDF, . Les théorèmes les plus fondamentaux sur les transformées de Fourier sont les suivants:ϕ(t)=f^(t)
La FC d'une somme de variables indépendantes est le produit de leurs FC.X+Y
Lorsque le PDF original f est continue et est bornée, f peut être récupéré à partir du CF φ par une version très proche de la transformée de Fourier,Xfϕ
f(x)=ϕˇ(x)=12π∫∞−∞exp(−ixt)ϕ(t)dt.
Lorsque est différentiable, sa dérivée peut être calculée sous le signe de l'intégrale:f
f′(x)=ddx12π∫∞−∞exp(−ixt)ϕ(t)dt=−i2π∫∞−∞texp(−ixt)ϕ(t)dt.
Pour que ceci soit bien défini, la dernière intégrale doit absolument converger; C'est,
∫∞−∞|texp(−ixt)ϕ(t)|dt=∫∞−∞|t||ϕ(t)|dt
doit converger vers une valeur finie. Inversement, quand elle converge, la dérivée existe partout grâce à ces formules d'inversion.
Il est à présent clair à quel point le fichier PDF pour une somme de variables uniformes est différentiable: à partir du premier point, le FC de la somme des variables iid est le FC de l’une d’entre elles élevéen puissance, ici égale à ( exp ( i t ) - 1 ) n / ( i t ) n . Le numérateur est borné (il consiste en ondes sinusoïdales) tandis que le dénominateur est O ( t n ) . On peut multiplier un tel intégrande par nth(exp(it)−1)n/(it)nO(tn) et il convergera encore absolument quand s < nts et convergent conditionnellement lorsque s = n - 1 . Ainsi, une application répétée de la troisième puce montre que le PDF pour la somme de n variables variables uniformes sera continuellement n - 2 fois différentiable et, dans la plupart des endroits, n - 1 fois différentiable.s<n−1s=n−1nn−2n−1
La courbe ombrée en bleu est un graphique en log-log de la valeur absolue de la partie réelle de la FC de la somme de variables uniformes. La ligne pointillée rouge est une asymptote; sa pente est de - 10 , ce qui montre que le PDF est 10 - 2 = 8 fois différentiable. Pour référence, la courbe grise représente la partie réelle du CF pour une fonction gaussienne de forme similaire (un PDF normal).n=10−1010−2=8
Intuition de Probabilité
Soit et X des variables aléatoires indépendantes où X a un uniforme [ 0 ,YXXdistribution 1 ] . Considérons un intervalle étroit ( t , t + d t ] . Nous décomposons le risque que X + Y ∈ ( t , t + d t ] en un chance que Y soit suffisamment proche de cet intervalle fois le risque que X soit juste le droit. taille pour placer X + Y[0,1](t,t+dt]X+Y∈(t,t+dt]YXX+Ydans cet intervalle, étant donné que est assez proche:Y
fX+Y(t)dt=Pr(X+Y∈(t,t+dt])=Pr(X+Y∈(t,t+dt]|Y∈(t−1,t+dt])Pr(Y∈(t−1,t+dt])=Pr(X∈(t−Y,t−Y+dt]|Y∈(t−1,t+dt])(FY(t+dt)−FY(t−1))=1dt(FY(t+dt)−FY(t−1)).
L'égalité finale vient de l'expression pour le PDF de . Diviser les deux côtés par d t et prendre la limite comme suit : d t → 0 donneXdtdt→0
fX+Y(t)=FY(t)−FY(t−1).
En d'autres termes, l'ajout d'une variable uniforme X à une variable quelconque Y modifie le pdf f Y en un CDF différencié F Y ( t ) - F Y ( t - 1 ) . Comme le PDF est la dérivée du CDF, cela implique que chaque fois que nous ajoutons une variable uniforme indépendante à Y , le PDF résultant est une fois plus différentiable qu'avant.[0,1]XYfYFY(t)−FY(t−1)Y
Appliquons cette idée, en commençant par une variable uniforme . Le PDF original n'est pas différentiable à 0 ou 1 : il y est discontinu. Le PDF de Y + X n'est pas différentiables à 0 , 1 ou 2 , mais il doit être continu à ces points, car il est la différence de PDF du Intégrales de Y . Ajouter une autre variable uniforme indépendante X 2 : le PDF de Y + X + X 2 est différentiable à 0 , 1 , 2Y01Y+X012YX2Y+X+X2 012, et mais il n’existe pas nécessairement de dérivées secondes à ces points. Etc.3
Intuition de la géométrie
tn[0,1]nx1+x2+⋯+xn≤t. The situation for n=3 variates is shown here, with t set at 1/2, 3/2, and then 5/2.
t0nHn(t):x1+x2+⋯+xn=t crosses vertices at t=0, t=1,…,t=n. At each time the shape of the cross section changes: in the figure it first is a triangle (a 2-simplex), then a hexagon, then a triangle again. Why doesn't the PDF have sharp bends at these values of t?
tHn(t) cuts off an n−1-simplex. All n−1 dimensions of the simplex are directly proportional to t, whence its "area" is proportional to tn−1. Some notation for this will come in handy later. Let θ be the "unit step function,"
θ(x)={01x<0x≥0.
If it were not for the presence of the other corners of the hypercube, this scaling would continue indefinitely. A plot of the area of the n−1-simplex would look like the solid blue curve below: it is zero at negative values and equals tn−1/(n−1)! at the positive one, conveniently written θ(t)tn−1/(n−1)!. It has a "kink" of order n−2 at the origin, in the sense that all derivatives through order n−3 exist and are continuous, but that left and right derivatives of order n−2 exist but do not agree at the origin.
(The other curves shown in this figure are −3θ(t−1)(t−1)2/2! (red), 3θ(t−2)(t−2)2/2! (gold), and −θ(t−3)(t−3)2/2! (black). Their roles in the case n=3 are discussed further below.)
To understand what happens when t crosses 1, let's examine in detail the case n=2, where all the geometry happens in a plane. We may view the unit "cube" (now just a square) as a linear combination of quadrants, as shown here:
The first quadrant appears in the lower left panel, in gray. The value of t is 1.5, determining the diagonal line shown in all five panels. The CDF equals the yellow area shown at right. This yellow area is comprised of:
The triangular gray area in the lower left panel,
minus the triangular green area in the upper left panel,
minus the triangular red area in the low middle panel,
plus any blue area in the upper middle panel (but there isn't any such area, nor will there be until t exceeds 2).
Every one of these 2n=4 areas is the area of a triangle. The first one scales like tn=t2, the next two are zero for t<1 and otherwise scale like (t−1)n=(t−1)2, and the last is zero for t<2 and otherwise scales like (t−2)n. This geometric analysis has established that the CDF is proportional to θ(t)t2−θ(t−1)(t−1)2−θ(t−1)(t−1)2+θ(t−2)(t−2)2 = θ(t)t2−2θ(t−1)(t−1)2+θ(t−2)(t−2)2; equivalently, the PDF is proportional to the sum of the three functions θ(t)t, −2θ(t−1)(t−1), and θ(t−2)(t−2) (each of them scaling linearly when n=2). The left panel of this figure shows their graphs: evidently, they are all versions of the original graph θ(t)t, but (a) shifted by 0, 1, and 2 units to the right and (b) rescaled by 1, −2, and 1, respectively.
The right panel shows the sum of these graphs (the solid black curve, normalized to have unit area: this is precisely the angular-looking PDF shown in the original question.
Now we can understand the nature of the "kinks" in the PDF of any sum of iid uniform variables. They are all exactly like the "kink" that occurs at 0 in the function θ(t)tn−1, possibly rescaled, and shifted to the integers 1,2,…,n corresponding to where the hyperplane Hn(t) crosses the vertices of the hypercube. For n=2, this is a visible change in direction: the right derivative of θ(t)t at 0 is 0 while its left derivative is 1. For n=3, this is a continuous change in direction, but a sudden (discontinuous) change in second derivative. For general n, there will be continuous derivatives through order n−2 but a discontinuity in the n−1st derivative.
Intuition from Algebraic Manipulation
The integration to compute the CF, the form of the conditional probability in the probabilistic analysis, and the synthesis of a hypercube as a linear combination of quadrants all suggest returning to the original uniform distribution and re-expressing it as a linear combination of simpler things. Indeed, its PDF can be written
fX(x)=θ(x)−θ(x−1).
Let us introduce the shift operator Δ: it acts on any function f by shifting its graph one unit to the right:
(Δf)(x)=f(x−1).
Formally, then, for the PDF of a uniform variable X we may write
fX=(1−Δ)θ.
The PDF of a sum of n iid uniforms is the convolution of fX with itself n times. This follows from the definition of a sum of random variables: the convolution of two functions f and g is the function
(f⋆g)(x)=∫∞−∞f(x−y)g(y)dy.
It is easy to verify that convolution commutes with Δ. Just change the variable of integration from y to y+1:
(f⋆(Δg))=∫∞−∞f(x−y)(Δg)(y)dy=∫∞−∞f(x−y)g(y−1)dy=∫∞−∞f((x−1)−y)g(y)dy=(Δ(f⋆g))(x).
For the PDF of the sum of n iid uniforms, we may now proceed algebraically to write
f=f⋆nX=((1−Δ)θ)⋆n=(1−Δ)nθ⋆n
(where the ⋆n "power" denotes repeated convolution, not pointwise multiplication!). Now θ⋆n is a direct, elementary integration, giving
θ⋆n(x)=θ(x)xn−1n−1!.
The rest is algebra, because the Binomial Theorem applies (as it does in any commutative algebra over the reals):
f=(1−Δ)nθ⋆n=∑i=0n(−1)i(ni)Δiθ⋆n.
Because Δi merely shifts its argument by i, this exhibits the PDF f as a linear combination of shifted versions of θ(x)xn−1, exactly as we deduced geometrically:
f(x)=1(n−1)!∑i=0n(−1)i(ni)(x−i)n−1θ(x−i).
(John Cook quotes this formula later in his blog post, using the notation (x−i)n−1+ for (x−i)n−1θ(x−i).)
Accordingly, because xn−1 is a smooth function everywhere, any singular behavior of the PDF will occur only at places where θ(x) is singular (obviously just 0) and at those places shifted to the right by 1,2,…,n. The nature of that singular behavior--the degree of smoothness--will therefore be the same at all n+1 locations.
Illustrating this is the picture for n=8, showing (in the left panel) the individual terms in the sum and (in the right panel) the partial sums, culminating in the sum itself (solid black curve):
Closing Comments
It is useful to note that this last approach has finally yielded a compact, practical expression for computing the PDF of a sum of n iid uniform variables. (A formula for the CDF is similarly obtained.)
The Central Limit Theorem has little to say here. After all, a sum of iid Binomial variables converges to a Normal distribution, but that sum is always discrete: it never even has a PDF at all! We should not hope for any intuition about "kinks" or other measures of differentiability of a PDF to come from the CLT.