Pourquoi la somme de deux variables aléatoires est-elle une convolution?


33

Pendant longtemps, je n'ai pas compris pourquoi la "somme" de deux variables aléatoires est leur convolution , alors qu'une fonction de densité de mélange somme de et estf(x)g(x)pf(x)+(1p)g(x)n; la somme arithmétique et non leur convolution. L'expression exacte "la somme de deux variables aléatoires" apparaît dans google 146 000 fois et est elliptique comme suit. Si l'on considère qu'un RV donne une valeur unique, alors cette valeur unique peut être ajoutée à une autre valeur unique RV, qui n'a rien à voir avec la convolution, du moins pas directement, tout ce qui est une somme de deux nombres. Un résultat de RV dans les statistiques est cependant une collection de valeurs et donc une expression plus exacte serait quelque chose comme "l'ensemble de sommes coordonnées de paires de valeurs individuelles associées de deux RV est leur convolution discrète" ... et peut être approximé par le convolution des fonctions de densité correspondant à ces RV. Langage encore plus simple: 2 VR den-les échantillons sont en fait deux vecteurs à n dimensions qui s'ajoutent comme somme vectorielle.

Veuillez montrer en détail comment la somme de deux variables aléatoires est une convolution et une somme.


6
Je ne crois pas vraiment que ce soit la «somme» dans un sens algébrique abstrait . Lorsque nous faisons une «somme de variables», nous nous référons à l'opération arithmétique typique telle que nous la connaissons lors de l'ajout de nombres naturels ou de nombres réels. Cela signifie que nous créons une nouvelle variable en «ajoutant» les autres variables ensemble. La notion de «somme de variables» existe également en dehors du domaine de la statistique et est indépendante des expressions concernant les convolutions et les probabilités. Donc, en effet «la somme des variables est une convolution», c'est faux. Mais personne n'implique cela. Nous devons changer le mot «est» dans cette déclaration.
Sextus Empiricus

5
Cela revient à dire que ne devrait pas être appelé «le produit de deux fonctions f et g» (ou seulement interprété comme une notion algébrique abstraite de «produit») parce que c'est une convolution en termes des transformées de Fourier de ces fonctions. f(x)g(x)
Sextus Empiricus

16
L '"avis" est trompeur. Une somme de variables aléatoires et signifie exactement dans le même sens que "somme" est compris par les écoliers: pour chaque , la valeur est trouvée en additionnant les nombres etIl n'y a rien d'abstrait là-dedans. Ces VR ont des distributions. Il existe de nombreuses façons de représenter les distributions. La fonction de distribution de est la convolution des DF de et ; la fonction caractéristique de est le produitXYω(X+Y)(ω)X(ω)X + Y X Y X + YY(ω).X+YXYX+Yde leurs FC; la fonction génératrice cumulative de est la somme de leurs CGF; etc. X+Y
whuber

3
Je ne vois ni variables aléatoires ni distributions dans votre calcul.
whuber

8
Dans la langue de mon article sur stats.stackexchange.com/a/54894/919 , une paire de variables aléatoires consiste en une boîte de tickets sur chacun desquels sont écrits deux nombres, l'un désigné et l'autre La somme de ces variables aléatoires est obtenue en additionnant les deux nombres trouvés sur chaque ticket. Le calcul est littéralement une tâche que vous pourriez assigner à une classe de troisième année. (Je tiens à souligner à la fois la simplicité fondamentale de l'opération et à montrer à quel point elle est liée à ce que tout le monde entend par «somme».)X Y .(X,Y)XY.
whuber

Réponses:


14

Les calculs de convolution associés aux distributions de variables aléatoires sont toutes des manifestations mathématiques de la loi de probabilité totale .


Dans la langue de mon message à Qu'entend-on par «variable aléatoire»? ,

Une paire de variables aléatoires est constitué d'une boîte de billets sur chacun desquels sont écrits deux nombres, l' un désigné et l'autre . La somme de ces variables aléatoires est obtenue en additionnant les deux nombres trouvés sur chaque ticket.(X,Y)XY

J'ai posté une photo d'une telle boîte et de ses tickets à Clarifying the concept of sum of random variables .

entrez la description de l'image ici

Ce calcul est littéralement une tâche que vous pourriez assigner à une classe de troisième année. (Je tiens à souligner à la fois la simplicité fondamentale de l'opération et à montrer à quel point elle est liée à ce que tout le monde entend par «somme».)

L'expression mathématique de la somme des variables aléatoires dépend de la façon dont vous représentez le contenu de la boîte:

Les deux premiers d'entre eux sont spéciaux dans la mesure où la boîte peut ne pas avoir de pmf, pdf ou mgf, mais elle a toujours un cdf, cf et cgf.


Pour voir pourquoi la convolution est la méthode appropriée pour calculer le pmf ou le pdf d'une somme de variables aléatoires, considérons le cas où les trois variables et ont un pmf: par définition, le pmf pour à n'importe quel nombre donne la proportion de tickets dans la case où la somme est égale à écriteX, Y,X+YX+YzX+Yz,Pr(X+Y=z).

Le pmf de la somme est trouvé en décomposant l'ensemble des tickets en fonction de la valeur de écrite dessus, selon la loi de probabilité totale, qui affirme que les proportions (de sous-ensembles disjoints) s'ajoutent. Plus techniquement,X

La proportion de tickets trouvés dans une collection de sous-ensembles disjoints de la boîte est la somme des proportions des sous-ensembles individuels.

Il s'applique ainsi:

La proportion de tickets où , écrite doit être égale à la somme sur toutes les valeurs possibles de la proportion de tickets où et écriteX+Y=zPr(X+Y=z),xX=xX+Y=z,Pr(X=x,X+Y=z).

Parce que et impliquent cette expression peut être réécrite directement en termes des variables d'origine et commeX=xX+Y=zY=zx,XY

Pr(X+Y=z)=xPr(X=x,Y=zx).

Voilà la convolution.


modifier

Veuillez noter que bien que les convolutions soient associées à des sommes de variables aléatoires, les convolutions ne sont pas des convolutions des variables aléatoires elles-mêmes!

En effet, dans la plupart des cas, il n'est pas possible de convoluer deux variables aléatoires. Pour que cela fonctionne, leurs domaines doivent avoir une structure mathématique supplémentaire. Cette structure est un groupe topologique continu.

Sans entrer dans les détails, il suffit de dire que la convolution de deux fonctions quelconques doit ressembler à quelque chose de manière abstraiteX,Y:GH

(XY)(g)=h,kGh+k=gX(h)Y(k).

(La somme pourrait être une intégrale et, si cela doit produire de nouvelles variables aléatoires à partir de variables existantes, doit être mesurable chaque fois que et sont; c'est là que doit être prise en compte la topologie ou la mesurabilité.)XYXY

Cette formule appelle deux opérations. L'un est la multiplication sur il doit être logique de multiplier les valeurs et L'autre est l'addition sur il doit être logique d' ajouter des éléments deH:X(h)HY(k)H.G:G .G.

Dans la plupart des applications probabilistes, est un ensemble de nombres (réels ou complexes) et la multiplication est celle habituelle. Mais l'espace d'échantillonnage, n'a souvent aucune structure mathématique. C'est pourquoi la convolution de variables aléatoires n'est généralement même pas définie. Les objets impliqués dans les convolutions de ce fil sont des représentations mathématiques des distributions de variables aléatoires. Ils sont utilisés pour calculer la distribution d'une somme de variables aléatoires, étant donné la distribution conjointe de ces variables aléatoires.HG ,G,


Les références

Stuart et Ord, Théorie avancée des statistiques de Kendall, volume 1. Cinquième édition, 1987, chapitres 1, 3 et 4 ( distributions de fréquences, moments et cumulants et fonctions caractéristiques ).


L'associativité avec la multiplication scalaire des propriétés algébriques indique que pour tout nombre réel (ou complexe) . Alors qu'une belle propriété est que la convolution de deux fonctions de densité est une fonction de densité, l'une n'est pas limitée aux fonctions de densité de convolution, et la convolution n'est pas en général un traitement de probabilité, bien sûr, mais cela peut être un traitement de série chronologique, par exemple, un traitement des eaux de ruissellement dans les lacs après une pluie, un modèle de concentration de médicament après le dosage, etc.a
a(fg)=(af)g
a
Carl

@Carl Comment ce commentaire concorde-t-il avec votre question initiale, qui demande des sommes de variables aléatoires ? Au mieux, elle est tangentielle.
whuber

Je vous demande de ne pas trop généraliser. Commencer une phrase par "la convolution est" sans dire "la convolution des VR est" est elliptique. Tout mon problème ici était avec la notation elliptique. L'addition vectorielle de deux vecteurs à espaces est une convolution, que ces vecteurs soient normalisés ou non. S'ils sont normalisés, ils n'ont pas besoin d'être des probabilités, c'est toute la vérité, pas seulement une partie. n
Carl

Merci: Je vais clarifier la première phrase pour souligner que je réponds à votre question.
whuber

Un nouvel ajout est vrai pour la convolution des VR, ce qui est techniquement ce que j'ai demandé. Et peut-être que j'équivoque, mais la convolution n'est pas toujours de RV mais peut toujours être réduite à certains facteurs d'échelle des fonctions de densité fois ces fonctions de densité, où les scalaires sont multiplicatifs et où les fonctions de densité sont parfois des RV, auquel cas les facteurs d'échelle sont l'identité multiplicative, c'est-à-dire 1.
Carl

41

Notation, majuscules et minuscules

https://en.wikipedia.org/wiki/Notation_in_probability_and_statistics

  • Les variables aléatoires sont généralement écrites en lettres romaines majuscules: , , etc.XY
  • Les réalisations particulières d'une variable aléatoire sont écrites en lettres minuscules correspondantes. Par exemple , ,…, pourrait être un échantillon correspondant à la variable aléatoire et une probabilité cumulative est formellement écrite pour différencier la variable aléatoire de la réalisation.x1x2xnXP(X>x)

Z=X+Yz i = x i + y i signifiezi=xi+yixi,yi


Mélange de variables -> somme des pdf

https://en.wikipedia.org/wiki/Mixture_distribution

Vous utilisez une somme des fonctions de densité de probabilité et lorsque la probabilité (disons Z) est définie par une somme unique de probabilités différentes.fX1fX2

Par exemple, lorsque est une fraction du temps défini par et une fraction du temps défini par , vous obtenez alors etZsX11sX2

P(Z=z)=sP(X1=z)+(1s)P(X2=z)
fZ(z)=sfX1(z)+(1s)fX2(z)

. . . . un exemple est un choix entre les jets de dés avec un dé à 6 faces ou un dé à 12 faces. Supposons que vous fassiez 50 à 50% du temps l'un ou l'autre. Alors

fmixedroll(z)=0.5f6sided(z)+0.5f12sided(z)


Somme des variables -> convolution des pdf

https://en.wikipedia.org/wiki/Convolution_of_probability_distributions

Vous utilisez une convolution des fonctions de densité de probabilité et lorsque la probabilité (disons Z) est définie par plusieurs sommes de probabilités différentes (indépendantes).fX1fX2

Par exemple, lorsque (c'est-à-dire une somme!) Et plusieurs paires différentes résument jusqu'à , avec chacune la probabilité . Ensuite, vous obtenez la convolutionZ=X1+X2 x 1 , x 2 z f X 1 ( x 1 ) f X 2 ( x 2 ) P ( Z = z ) = toutes les paires  x 1 + x 2 = z P ( X 1 = x 1 ) P ( X 2 = x 2 )x1,x2zfX1(x1)fX2(x2)

P(Z=z)=all pairs x1+x2=zP(X1=x1)P(X2=x2)

et

fZ(z)=x1 domain of X1fX1(x1)fX2(zx1)

ou pour des variables continues

fZ(z)=x1 domain of X1fX1(x1)fX2(zx1)dx1

. . . . un exemple est une somme de deux lancers de dés pour etfX2(x)=fX1(x)=1/6x{1,2,3,4,5,6}

fZ(z)=x{1,2,3,4,5,6} and zx{1,2,3,4,5,6}fX1(x)fX2(zx)

note je choisis d'intégrer et de additionner , ce que je trouve plus intuitif, mais ce n'est pas nécessaire et vous pouvez intégrer de à si vous définissez dehors du domaine.x1 domain of X1fX1(x1)=0

Exemple d'image

exemple de «somme de variables» entraînant une «convolution de pdfs»

Laissez soit . Pour connaître vous devrez intégrer sur les probabilités pour toutes les réalisations de qui conduire à .ZX+YP(z12dz<Z<z+12dz)x,yz12dz<Z=X+Y<z+12dz

C'est donc l'intégrale de dans la région long de la ligne .f(x)g(y)±12dzx+y=z


Écrit par StackExchangeStrike


6
@Carl ce n'est pas du jargon. La convolution peut en effet être vue comme une somme de nombreuses sommes. Mais ce n'est pas ce à quoi se réfère «la somme des variables» . Cela fait référence à des choses comme lorsque nous parlons d'une «somme de deux lancers de dés», qui a une signification et une interprétation très normales dans la vie de tous les jours (en particulier lorsque nous jouons à un jeu de société). Aimeriez-vous plutôt dire que nous prenons une combinaison de deux lancers de dés lorsque nous utilisons la somme algébrique de deux lancers de dés?
Sextus Empiricus

2
La probabilité de lancer 7 avec la somme (unique) de deux dés est la somme de (nombreuses) probabilités de lancer 1-6, 2-5, 3-4, 4-3, 5-2, 6-1. Le terme somme apparaît deux fois et dans le premier cas, lorsqu'il se réfère à une seule expression de sommation, c'est ce à quoi se réfère la déclaration «somme de deux variables», comme dans «somme de deux lancers de dés».
Sextus Empiricus

5
En effet, l'intégrale remplace la somme des probabilités. Mais cela concerne la deuxième utilisation du terme somme, et non la première utilisation du terme somme. On peut donc encore se référer à la somme de deux variables (qui est la première utilisation du terme). En effet, le terme «somme» n'est pas utilisé pour désigner l'opération de convolution ou l'opération de sommation des probabilités, mais la sommation des variables.
Sextus Empiricus

8
au moins, il n'est pas jargonique de dire «la densité de probabilité pour une somme de lancers de dés est définie par la convolution des densités de probabilité pour les lancers de dés individuels». Le terme «une somme de lancers de dés» a une interprétation très normale dans la vie de tous les jours quand il n'y a pas de statisticiens avec leur jargon. C'est dans ce sens (somme des lancers de dés) qu'il faut interpréter (somme des variables). Cette étape n'est pas non plus jargonesque. Les gens utilisent tout le temps des «sommes de variables». Seul le statisticien réfléchit aux probabilités de ces sommes et commence à appliquer des circonvolutions
Sextus Empiricus

2
@Carl: Je pense que vous avez mal compris ma déclaration. Vous disiez qu'il n'est pas bon d'appeler une intégrale de convolution une somme, ce qui implique que quelqu'un appelle l'intégrale de convolution une somme. Mais personne ici ne dit cela. Ce qui a été dit, c'est qu'une intégrale de convolution est le pdf de la somme de certaines variables. Vous étiez en train de changer la déclaration en quelque chose de faux, puis vous vous êtes plaint qu'elle était fausse.

28

Votre confusion semble provenir de la fusion de variables aléatoires avec leurs distributions.

Pour «désapprendre» cette confusion, il pourrait être utile de reculer de quelques pas, de vider votre esprit un instant, d'oublier les formalismes fantaisistes comme les espaces de probabilité et les algèbres sigma (si cela aide, faites comme si vous étiez de retour à l'école primaire) et je n'ai jamais entendu parler de ces choses!) et pensez simplement à ce qu'une variable aléatoire représente fondamentalement: un nombre dont nous ne sommes pas sûrs de la valeur .

Par exemple, disons que j'ai un dé à six faces dans ma main. (J'en ai vraiment. En fait, j'en ai un sac entier.) Je ne l'ai pas encore lancé, mais je suis sur le point, et je décide d'appeler le numéro que je n'ai pas encore lancé sur ce dé par le nom " ".X

Que puis-je dire à propos de ce , sans réellement lancer le dé et déterminer sa valeur? Eh bien, je peux dire que sa valeur ne sera pas , ou . En fait, je peux dire avec certitude que ce sera un nombre entier compris entre et , inclus, car ce sont les seuls chiffres marqués sur le dé. Et parce que j'ai acheté ce sac de dés auprès d'un fabricant réputé, je peux être sûr que lorsque je lance le dé et que je détermine le nombre , il est également probable qu'il s'agisse de l'une de ces six valeurs possibles, ou aussi proche de cela. comme je peux le déterminer.7 - 1 1X71 16X1216X

En d'autres termes, mon est une variable aléatoire à valeur entière uniformément répartie sur l'ensemble .{ 1 , 2 , 3 , 4 , 5 , 6 }X{1,2,3,4,5,6}


OK, mais sûrement tout ce qui est évident, alors pourquoi est-ce que je continue à travailler sur des choses si triviales que vous savez sûrement déjà? C'est parce que je veux faire une autre remarque, qui est également triviale mais en même temps, d'une importance cruciale: je peux faire des calculs avec ce , même si je ne connais pas encore sa valeur!X

Par exemple, je peux décider d'en ajouter un au numéro que je lancerai sur le dé et d'appeler ce numéro par le nom " ". Je ne saurai pas quel sera ce , car je ne sais pas ce que sera jusqu'à ce que j'aie lancé le dé, mais je peux toujours dire que sera un supérieur à , ou en termes mathématiques, .Q Q X Q X X Q = X + 1XQQXQXQ=X+1

Et ce sera également une variable aléatoire, car je ne connais pas encore sa valeur; Je sais que ce sera un plus grand que . Et parce que je sais quelles sont les valeurs peut prendre, et comment il est susceptible de prendre chacune de ces valeurs, je peux aussi déterminer les choses pour . Et vous aussi, assez facilement. Vous n'aurez pas vraiment besoin de formalismes ou de calculs fantaisistes pour comprendre que sera un nombre entier compris entre et , et qu'il est tout aussi probable (en supposant que mon dé soit aussi juste et bien équilibré que je le pense) de prendre l'une de ces valeurs.X X Q Q 2QXXQQ27

Mais il y a plus! Je pourrais tout aussi bien décider de, disons, multiplier le nombre que je lancerai sur le dé par trois, et appeler le résultat . Et c'est une autre variable aléatoire, et je suis sûr que vous pouvez également comprendre sa distribution, sans avoir à recourir à des intégrales ou des convolutions ou à l'algèbre abstraite.R = 3 XXR=3X

Et si je le voulais vraiment, je pourrais même décider de prendre le nombre encore à déterminer et de le plier, le fuser et le mutiler le diviser par deux, en soustraire un et quadrater le résultat. Et le nombre résultant est encore une autre variable aléatoire; cette fois, il ne sera ni à valeurs entières ni uniformément distribué, mais vous pouvez toujours comprendre sa distribution assez facilement en utilisant simplement la logique et l'arithmétique élémentaires.S = ( 1XS=(12X1)2


OK, je peux donc définir de nouvelles variables aléatoires en branchant mon jet de dé inconnu dans diverses équations. Et alors? Eh bien, tu te souviens quand j'ai dit que j'avais un sac entier de dés? Permettez-moi d'en prendre un autre et d'appeler le numéro que je vais lancer sur ce dé par le nom " ".YXY

Ces deux dés que j'ai pris dans le sac sont à peu près identiques - si vous les avez échangés quand je ne regardais pas, je ne serais pas en mesure de le dire - donc je peux supposer assez sûrement que ce aura également la même distribution que . Mais ce que je veux vraiment faire, c'est lancer les deux dés et compter le nombre total de pips sur chacun d'eux . Et ce nombre total de pips, qui est aussi une variable aléatoire puisque je ne le connais pas encore , je l'appellerai " ".X TYXT

Quelle sera la taille de ce nombre ? Eh bien, si est le nombre de pépins je rouler sur la première matrice, et est le nombre de pépins je rouler sur la deuxième matrice, puis sera clairement leur somme, à savoir . Et je peux dire que, puisque et sont tous deux compris entre un et six, doit être au moins deux et au plus douze. Et puisque et sont tous deux des nombres entiers, doit clairement être un nombre entier également.X Y T T = X + Y X Y T X Y TTXYTT=X+YXYTXYT


Mais quelle est la probabilité que prenne chacune de ses valeurs possibles entre deux et douze? Il est certainement peu probable qu'ils prennent chacun d'eux - un peu d'expérimentation révélera qu'il est beaucoup plus difficile de lancer un douze sur une paire de dés que de lancer, disons, un sept.T

Pour comprendre cela, permettez-moi de désigner la probabilité que je lance le nombre sur le premier dé (celui dont j'ai décidé d'appeler le résultat ) par l'expression . De même, je dénoterai la probabilité de lancer le nombre sur le deuxième dé par . Bien sûr, si mes dés sont parfaitement justes et équilibrés, alors pour tout et compris entre un et six, mais nous pourrions aussi bien considérer le plus général cas où les dés pourraient en fait être biaisés, et plus susceptibles de lancer certains numéros que d'autres.X Pr [ X = a ] b Pr [ Y = b ] Pr [ X = a ] = Pr [ Y = b ] = 1aXPr[X=a]bPr[Y=b] abPr[X=a]=Pr[Y=b]=16ab

Maintenant, puisque les deux jets de dés seront indépendants (je ne prévois certainement pas de tricher et d'ajuster l'un d'eux en fonction de l'autre!), La probabilité que je lance sur le premier dé et sur le second sera simplement être le produit de ces probabilités:b Pr [ X = a  et  Y = b ] = Pr [ X = a ] Pr [ Y = b ] .a b

Pr[X=a and Y=b]=Pr[X=a]Pr[Y=b].

(Notez que la formule ci-dessus ne s'applique qu'aux paires indépendantes de variables aléatoires; elle ne serait certainement pas valable si nous remplaçions ci-dessus par, disons, !)QYQ

Maintenant, il existe plusieurs valeurs possibles de et qui pourraient donner le même total ; par exemple, pourrait naître aussi bien de et que de et , voire de et . Mais si j'avais déjà lancé le premier dé et connaissais la valeur de , je pourrais dire exactement quelle valeur je devrais lancer sur le deuxième dé pour atteindre un nombre total de pips donné.Y T T = 4 X = 1 Y = 3 X = 2 Y = 2 X = 3 Y = 1 XXYTT=4X=1Y=3X=2Y=2X=3Y=1X

Plus précisément, disons que nous nous intéressons à la probabilité que , pour un certain nombre . Maintenant, si je sais qu'après avoir lancé le premier dé, , je ne pourrais obtenir le total qu'en lançant sur le deuxième dé. Et bien sûr, nous savons déjà, sans lancer de dés du tout, que la probabilité a priori de lancer sur le premier dé et sur le deuxième dé estc X = a T = c Y = c - a a c - a Pr [ X = a  et  Y = c - a ] = Pr [ X = a ] Pr [ Y = c - a ] .T=ccX=aT=cY=caaca

Pr[X=a and Y=ca]=Pr[X=a]Pr[Y=ca].

Mais bien sûr, il y a plusieurs façons possibles pour moi d'atteindre le même total , selon ce que je finis par lancer sur le premier dé. Pour obtenir la probabilité totale de lancer pips sur les deux dés, je dois additionner les probabilités de toutes les différentes façons dont je pourrais rouler ce total. Par exemple, la probabilité totale que je lance un total de 4 pips sur les deux dés sera:Pr [ T = c ] c Pr [ T = 4 ] = Pr [ X = 1 ] Pr [ Y = 3 ] + Pr [ X = 2 ] Pr [ Y = 2 ] + Pr [ X = 3 ] Pr [ Y = 1 ] + Pr [ X = 4 ]cPr[T=c]c

Pr[T=4]=Pr[X=1]Pr[Y=3]+Pr[X=2]Pr[Y=2]+Pr[X=3]Pr[Y=1]+Pr[X=4]Pr[Y=0]+

Notez que je suis allé un peu trop loin avec cette somme ci-dessus: certainement ne peut pas être ! Mais mathématiquement, ce n'est pas un problème; nous avons juste besoin de définir la probabilité d'événements impossibles comme (ou ou ou ) comme zéro. Et de cette façon, nous obtenons une formule générique pour la distribution de la somme de deux jets de dés (ou, plus généralement, deux variables aléatoires indépendantes à valeur entière):0 Y = 0 Y = 7 Y = - 1 Y = 1Y0Y=0Y=7Y=1Y=12

T=X+YPr[T=c]=aZPr[X=a]Pr[Y=ca].

Et je pourrais parfaitement arrêter ici mon exposition, sans jamais mentionner le mot "convolution"! Mais bien sûr, si vous savez à quoi ressemble une convolution discrète , vous pouvez en reconnaître une dans la formule ci-dessus. Et c'est une façon assez avancée d'énoncer le résultat élémentaire dérivé ci-dessus: la fonction de masse de probabilité de la somme de deux variables aléatoires à valeur entière est la convolution discrète des fonctions de masse de probabilité des sommets.

Et bien sûr, en remplaçant la somme par une masse intégrale et de probabilité par une densité de probabilité , nous obtenons également un résultat analogue pour les variables aléatoires distribuées en continu. Et en étirant suffisamment la définition d'une convolution, nous pouvons même la faire s'appliquer à toutes les variables aléatoires, quelle que soit leur distribution - bien qu'à ce stade la formule devienne presque une tautologie, puisque nous aurons à peu près juste défini la convolution de deux les distributions de probabilité arbitraires doivent être la distribution de la somme de deux variables aléatoires indépendantes avec ces distributions.

Mais même ainsi, toutes ces choses avec des convolutions et des distributions et des PMF et des PDF ne sont vraiment qu'un ensemble d'outils pour calculer des choses sur des variables aléatoires. Les objets fondamentaux que nous calcul des choses au sujet sont les variables aléatoires elles - mêmes, qui sont en fait que des nombres dont les valeurs que nous ne sommes pas sûr .

Et d'ailleurs, cette astuce de convolution ne fonctionne que pour des sommes de variables aléatoires, de toute façon. Si vous vouliez savoir, disons, la distribution de ou , vous auriez à la déterminer à l'aide de méthodes élémentaires, et le résultat ne serait pas une convolution.V = X YU=XYV=XY


Addendum: Si vous souhaitez une formule générique pour calculer la distribution de la combinaison somme / produit / exponentielle / quelle que soit la combinaison de deux variables aléatoires, voici une façon d'en écrire une: où représente une opération binaire arbitraire et est une parenthèse Iverson , c'est-à-dire[ a = b c ] [ a = b c ] = { 1 si  a = b c ,  et 0 sinon .

A=BCPr[A=a]=b,cPr[B=b and C=c][a=bc],
[une=bc]
[une=bc]={1si une=bc, et0autrement.

(La généralisation de cette formule pour les variables aléatoires non discrètes est laissée comme un exercice dans un formalisme essentiellement inutile. Le cas discret est tout à fait suffisant pour illustrer l'idée essentielle, le cas non discret ajoutant simplement un tas de complications non pertinentes.)

Vous pouvez vérifier vous - même que cette formule fonctionne bien , par exemple pour l' addition et que, pour le cas particulier d'ajouter deux indépendants variables aléatoires, il est équivalent à la formule « convolution » donnée plus tôt.

Bien sûr, dans la pratique, cette formule générale est beaucoup moins utile pour le calcul, car elle implique une somme sur deux variables non bornées au lieu d'une seule. Mais contrairement à la formule à somme unique, elle fonctionne pour les fonctions arbitraires de deux variables aléatoires, même non inversibles, et elle montre également explicitement l'opération au lieu de la déguiser en inverse (comme la formule "convolution" déguise l'addition comme soustraction).


Ps. Je viens de lancer les dés. Il s'avère que et , ce qui implique que , , , , et . Maintenant tu sais. ;-)Y = 6 Q = 6 R = 15 S = 2,25 T = 11 U = 30 V = 15625X=5Y=6Q=6R=15S=2,25T=11U=30V=15625


4
Cela devrait être la réponse acceptée! Très intuitif et clair!
Vladislavs Dovgalecs

3
@Carl: Le point que je suis en train de faire est que la somme des variables aléatoires est en effet une somme simple: . Si nous voulons calculer la distribution de , alors nous devrons faire quelque chose de plus compliqué, mais c'est un problème secondaire. La variable aléatoire n'est pas sa distribution. (En effet, une variable aléatoire n'est même pas entièrement caractérisée par sa distribution, car la distribution (marginale) seule ne code pas les informations sur ses dépendances possibles avec d'autres variables.)TT=X+YT
Ilmari Karonen

3
@Carl: ... Dans tous les cas, si vous vouliez introduire un symbole spécial pour "addition de variables aléatoires", alors pour des raisons de cohérence, vous devriez également avoir des symboles spéciaux pour "multiplication de variables aléatoires" et "division de variables aléatoires" et "exponentiation des variables aléatoires" et "logarithme des variables aléatoires" et ainsi de suite. Toutes ces opérations sont parfaitement bien définies sur des variables aléatoires, considérées comme des nombres avec une valeur incertaine , mais dans tous les cas, le calcul de la distribution du résultat est beaucoup plus compliqué que le simple calcul correspondant pour les constantes.
Ilmari Karonen

5
@Carl: La confusion disparaît lorsque vous cessez de confondre une variable aléatoire avec sa distribution. Prendre la distribution d'une variable aléatoire n'est pas une opération linéaire dans un sens, donc la distribution de la somme de deux variables aléatoires n'est (généralement) pas la somme de leurs distributions. Mais il en va de même pour toute opération non linéaire. Vous n'êtes certainement pas confus par le fait que , alors pourquoi devriez-vous être confus par le fait que ? Pr[X+Y=c]Pr[X=c]+Pr[Y=c]X+yX+yPr[X+Y=c]Pr[X=c]+Pr[Y=c]
Ilmari Karonen

3
@Carl: Attendez, quoi? Je roule deux dés, écrire les résultats et , et ensuite calculer . Comment n'est-ce pas une division ordinaire? (Et oui, c'est toujours une division ordinaire même si je le fais avant de lancer les dés. Dans ce cas, les valeurs de et ne sont pas encore fixes, et donc la valeur de .)Y Z = X / Y X Y ZXYZ=X/YXYZ
Ilmari Karonen

7

En fait, je ne pense pas que ce soit tout à fait juste, à moins que je ne vous comprenne mal.

Si et sont des variables aléatoires indépendantes, la relation somme / convolution à laquelle vous faites référence est la suivante: Autrement dit, la fonction de densité de probabilité (pdf) de la somme est égale à la convolution (désigné par la opérateur) de l'individu pdf de de et .Y p ( X + Y ) = p ( X ) p ( Y ) X YXY

p(X+Y)=p(X)*p(Y)
*XY

Pour comprendre pourquoi, considérons que pour une valeur fixe de , la somme suit le pdf de , décalée d'un montant . Donc, si vous considérez toutes les valeurs possibles de , la distribution de est donnée en remplaçant chaque point de par une copie de centrée sur ce point (ou vice versa), puis en additionnant toutes ces copies , ce qui est exactement ce qu'est une convolution.S = X + Y Y x X S p ( X ) p ( Y )X=XS=X+YYXXSp(X)p(Y)

Formellement, nous pouvons écrire ceci comme: ou, de manière équivalente: p ( S ) = p X ( S - y ) p Y ( y ) d y

p(S)=pY(S-X)pX(X)X
p(S)=pX(S-y)pY(y)y

Edit: Pour, espérons-le, dissiper une certaine confusion, permettez-moi de résumer certaines des choses que j'ai dites dans les commentaires. La somme de deux variables aléatoires et ne fait pas référence à la somme de leurs distributions. Il se réfère au résultat de la somme de leurs réalisations. Pour répéter l'exemple que j'ai donné dans les commentaires, supposons que et sont les nombres lancés avec un lancer de deux dés ( étant le nombre lancé avec un dé, et le nombre lancé avec l'autre). Définissons ensuiteY X Y X Y S = X + Y X YXYXYXYS=X+Ycomme le nombre total jeté avec les deux dés ensemble. Par exemple, pour un lancer de dés donné, nous pourrions lancer un 3 et un 5, et donc la somme serait 8. La question est maintenant: à quoi ressemble la distribution de cette somme et comment est-elle liée aux distributions individuelles de et ? Dans cet exemple spécifique, le nombre lancé avec chaque dé suit une distribution uniforme (discrète) entre [1, 6]. La somme suit une distribution triangulaire entre [1, 12], avec un pic à 7. En fait, cette distribution triangulaire peut être obtenue en convoluant les distributions uniformes de et , et cette propriété est en fait valable pour toutes les sommes de ( variables aléatoires indépendantes).XYYXY


La somme de plusieurs sommes est plus combinable qu'une seule somme à noter avec un signe «+». Ma préférence serait de dire que les variables aléatoires se combinent par convolution.
Carl

6
Une convolution pourrait être appelée une somme de plusieurs sommes, bien sûr. Mais ce que vous devez comprendre, c'est que la convolution s'applique strictement aux fichiers PDF des variables qui sont sommées. Les variables elles-mêmes ne sont pas convolutées. Ils sont simplement ajoutés l'un à l'autre, et il n'y a aucun moyen d'interpréter cet ajout comme une opération de convolution (donc la prémisse de base de votre question, comme il est maintenant dit, est incorrecte).
Ruben van Bergen

4
Vous comprenez mal cette référence. Il dit: La distribution de probabilité de la somme de deux ou plusieurs variables aléatoires indépendantes est la convolution de leurs distributions individuelles . Il ne dit pas qu'une somme de deux variables aléatoires équivaut à convoluer ces variables. Il dit que la distribution de la somme est la convolution de la distribution des variables individuelles. Une variable aléatoire et sa distribution sont deux choses différentes.
Ruben van Bergen

Bien sûr, vous pouvez convoluer des variables aléatoires. Mais la propriété somme / convolution qui est largement connue et discutée dans cet article (et dans ma réponse ci-dessus) ne traite pas des convolutions de variables aléatoires. Elle concerne spécifiquement les sommes de variables aléatoires et les propriétés de la distribution de cette somme.
Ruben van Bergen

1
("Bien sûr, vous pouvez convoluer des variables aléatoires". Pouvez-vous? Ma compréhension était que parce que pour obtenir la fonction de distribution de la somme des variables aléatoires, vous convoluez les fonctions de masse / densité de chacune, beaucoup de gens parlent (vaguement) de distributions convolutives, et certains parlent (à tort) de convolution de variables aléatoires. Désolé de m'éloigner du sujet, mais je suis curieux.)
Scortchi - Réintégrer Monica

6

Commencez par considérer l'ensemble de tous les résultats distincts possibles d'un processus ou d'une expérience. Soit une règle (non encore spécifiée) pour attribuer un numéro à un résultat donné ; que soit aussi. Ensuite, énonce une nouvelle règle pour attribuer un numéro à un résultat donné: ajoutez le nombre que vous obtenez de la règle au nombre que vous obtenez de la règle .XωYS=X+YSXY

On peut s'arrêter là. Pourquoi ne devrait - on pas appeler une somme?S=X+Y

Si nous continuons à définir un espace de probabilité , la fonction de masse (ou densité) de la variable aléatoire (car c'est ce que nos règles sont maintenant) peut être obtenue en convoluant la fonction de masse (ou densité) de avec celui de (quand ils sont indépendants). Ici, «convolving» a son sens mathématique habituel . Mais les gens parlent souvent de convolution des distributions, ce qui est inoffensif; ou parfois même de convolutionner des variables aléatoires, ce qui n'est apparemment pas - si cela suggère de lire " " comme " ", et donc que le "S=X+YXYX+YX convolvouste wjeth Y+"dans le premier représente une opération complexe quelque peu analogue à, ou étendant l'idée d'addition plutôt que d'addition simple et simple. J'espère qu'il ressort clairement de l'exposé ci-dessus, en s'arrêtant là où j'ai dit que nous pouvions, que déjà parfaitement logique avant même que la probabilité ne soit prise en compte.X+Y

En termes mathématiques, les variables aléatoires sont des fonctions dont le co-domaine est l'ensemble des nombres réels & dont le domaine est l'ensemble de tous les résultats. Ainsi, le " " dans " " (ou " ", pour montrer leurs arguments explicitement) a exactement la même signification que le " " dans " ". C'est bien de penser à la façon dont vous additionneriez des vecteurs de valeurs réalisées, si cela aide l'intuition; mais cela ne devrait pas engendrer de confusion sur la notation utilisée pour les sommes des variables aléatoires elles-mêmes.+X+YX(ω)+Y(ω)+péché(θ)+cos(θ)


[Cette réponse essaie simplement de rassembler succinctement les points soulevés par @MartijnWeterings, @IlmariKaronen, @RubenvanBergen et @whuber dans leurs réponses et commentaires. J'ai pensé que cela pourrait aider à expliquer ce qu'est une variable aléatoire plutôt que ce qu'est une convolution. Merci à tous!]


(+1) Pour l'effort. Répondez trop profondément pour moi sonder. Cependant, cela m'a conduit à un. Veuillez lire cela et faites-moi part de vos réflexions.
Carl

C'est la notation elliptique qui m'a dérouté: pour tout , en d'autres termes, addition vectorielle . Si quelqu'un avait dit "addition vectorielle" plutôt que "addition" , je ne me serais pas gratté la tête en me demandant ce que cela voulait dire, mais je ne l'aurais pas dit. Sje=Xje+Yjeje=1,2,3,...,n-1,n
Carl

Eh bien, si vous mettez des réalisations de & dans des vecteurs, et que vous vouliez calculer le vecteur de réalisations de , alors vous utiliseriez l'addition vectorielle. Mais cela semble plutôt tangentiel. Après tout, ressentiriez-vous le besoin d'expliquer « » à l'aide de vecteurs, ou diriez-vous que le « » dans cette expression signifie l'addition de vecteurs? XYSpéché(θ)+cos(φ)+
Scortchi - Réintégrer Monica

Pour faire quoi? Le contexte était constitué de données discrètes, par exemple les RV, pas de fonctions continues, par exemple les PDF ou , et est une somme ordinaire. péché(θ)péché(θ)+cos(φ)
Carl

1
@Carl: (1) Si un biologiste modélise le non. des œufs pondus dans un nid de canard en tant que VR de poisson, ils n'autorisent pas vraiment la possibilité d'une infinité d'œufs. Si vous avez une question sur le rôle des ensembles infinis en mathématiques, posez-la sur Mathématiques ou Philosophie SE. (2) Bien que tout à fait standard, la nomenclature peut en effet induire en erreur; d'où ma réponse.
Scortchi - Réintégrer Monica

3

En réponse à votre "avis", euh, ... non.

Laissez , et variables aléatoires et laissez . Ensuite, une fois que vous choisissez et , vous obligez . Vous faites ces deux choix, dans cet ordre, lorsque vous écrivez Mais c'est un convolution.Y Z Z = X + Y Z X Y = Z - X P ( Z = z ) = P ( X = x ) P ( Y = z - x ) d x .XYZZ=X+YZXY=Z-X

P(Z=z)=P(X=X)P(Y=z-X)X.

Remarquez disparu. (+1) à vous pour les soins.
Carl

2

La raison est la même que les produits des fonctions de puissance sont liés aux convolutions. La convolution apparaît toujours naturellement, si vous combinez des objets qui ont une plage (par exemple, les puissances de deux fonctions de puissance ou la plage des PDF) et où la nouvelle plage apparaît comme la somme des plages d'origine.

Il est plus facile à voir pour les valeurs moyennes. Pour que ait une valeur moyenne, les deux doivent avoir des valeurs moyennes, ou si l'un a une valeur élevée, l'autre doit avoir une valeur faible et vice versa. Cela correspond à la forme de la convolution, qui a un indice allant des valeurs élevées aux valeurs faibles tandis que l'autre augmente.X+y

Si vous regardez la formule de la convolution (pour les valeurs discrètes, juste parce que je trouve plus facile à voir là-bas)

(F*g)(n)=ΣkF(k)g(n-k)

vous voyez alors que la somme des paramètres des fonctions ( et ) correspond toujours exactement à . Ainsi, ce que fait réellement la convolution, c'est la somme de toutes les combinaisons possibles, qui ont la même valeur.n-kkn

Pour les fonctions de puissance, nous obtenons

(une0+une1X1+une2X2++unenXn)(b0+b1X1+b2X2++bmXm)=Σje=0m+nΣkunek*bje-kXje

qui a le même schéma de combinaison soit des exposants hauts de gauche avec des exposants bas de droite ou vice versa, pour toujours obtenir la même somme.

Une fois que vous voyez ce que la convolution fait réellement ici, c'est-à-dire quels termes sont combinés et pourquoi elle doit donc apparaître à de nombreux endroits, la raison de la convolution de variables aléatoires devrait devenir assez évidente.


2

Prouvons la supposition pour le cas continu, puis expliquons-la et illustrons-la en utilisant des histogrammes construits à partir de nombres aléatoires et les sommes formées en ajoutant des paires ordonnées de nombres telles que la convolution discrète et les deux variables aléatoires sont toutes de longueur .n

De Grinstead CM, Snell JL. Introduction à la probabilité: American Mathematical Soc .; 2012. Ch. 7, exercice 1:

Soit et des variables aléatoires indépendantes de valeur réelle avec respectivement les fonctions de densité et . Montrer que la fonction de densité de la somme est la convolution des fonctions et .XYFX(X)FY(y)X+YFX(X)FY(y)

Soit la variable aléatoire conjointe . Alors la fonction de densité conjointe de est , puisque et sont indépendants. Calculez maintenant la probabilité que , en intégrant la fonction de densité conjointe sur la région appropriée dans le plan. Cela donne la fonction de distribution cumulative de .Z(X,Y)ZFX(X)FY(y)XYX+YzZ

FZ(z)=P(X+Yz)=(X,y):X+yzFX(X)FY(y)yX
=-FX(X)[yz-XFY(y)y]X=-FX(X)[FY(z-X)]X.

Différenciez maintenant cette fonction par rapport à pour obtenir la fonction de densité de .zz

FZ(z)=FZ(z)z=-FX(X)FY(z-X)X.

Pour apprécier ce que cela signifie dans la pratique, cela a ensuite été illustré par un exemple. La réalisation d'un élément de nombre aléatoire (statistiques: résultat, informatique: instance) à partir d'une distribution peut être considérée comme prenant la fonction de densité cumulative inverse d'une fonction de densité de probabilité d'une probabilité aléatoire. (Une probabilité aléatoire est, par calcul, un seul élément d'une distribution uniforme sur l'intervalle [0,1].) Cela nous donne une valeur unique sur l' axe des . Ensuite, nous générons un autre deuxième élément aléatoire d'axe partir du CDF inverse d'un autre PDF éventuellement différent d'une seconde probabilité aléatoire différente. Nous avons alors deux éléments aléatoires. Une fois ajoutés, les deuxXXX-les valeurs ainsi générées deviennent un troisième élément et notez ce qui s'est passé. Les deux éléments deviennent maintenant un seul élément de grandeur , c'est-à-dire que des informations ont été perdues. C'est le contexte dans lequel «l'ajout» a lieu; c'est l'addition deX1+X2X-valeurs. Lorsque plusieurs répétitions de ce type d'addition ont lieu, la densité résultante des réalisations (densité de résultat) des sommes tend vers le PDF de la convolution des densités individuelles. La perte globale d'informations entraîne un lissage (ou une dispersion de densité) de la convolution (ou des sommes) par rapport aux PDF (ou sommets) constitutifs. Un autre effet est le déplacement d'emplacement de la convolution (ou des sommes). Notez que les réalisations (résultats, instances) de plusieurs éléments n'offrent que des éléments clairsemés remplissant (illustrant) un espace d'échantillonnage continu.

Par exemple, 1000 valeurs aléatoires ont été créées en utilisant une distribution gamma avec une forme de et une échelle de . Ceux-ci ont été ajoutés par paire à 1000 valeurs aléatoires à partir d'une distribution normale avec une moyenne de 4 et un écart-type de . Les histogrammes de densité de chacun des trois groupes de valeurs ont été co-tracés (panneau de gauche ci-dessous) et contrastés (panneau de droite ci-dessous) avec les fonctions de densité utilisées pour générer les données aléatoires, ainsi que la convolution de ces fonctions de densité. dix/921/4entrez la description de l'image ici

Comme le montre la figure, l'ajout d'explications de sommets semble plausible car les distributions de données lissées par le noyau (en rouge) dans le panneau de gauche sont similaires aux fonctions de densité continue et à leur convolution dans le panneau de droite.


@whuber Enfin, je pense que je comprends. La somme est constituée d'événements aléatoires. Jetez un œil à mon explication et dites-moi si elle est claire maintenant, s'il vous plaît.
Carl

3
Cela aide à être prudent avec la langue. Les événements sont des ensembles . Ils sont rarement même des ensembles de nombres (c'est pourquoi leurs éléments sont appelés «résultats»). Les événements ne s'ajoutent pas - les valeurs des variables aléatoires le font. Le problème de la "complexité impressionnante" n'est qu'une distraction. En effet, si vous voulez aller au cœur du problème, assurez-vous que l'un des sommets de votre exemple est une variable aléatoire à moyenne nulle, car la moyenne affecte un changement global de l'emplacement. Vous voulez comprendre intuitivement ce que fait la convolution autrement que de déplacer l'emplacement.
whuber

@whuber Merci-utile. Ce n'est qu'en statistiques qu'un résultat est un élément unique d'un espace échantillon. Pour le reste d'entre nous, un résultat est le résultat d'un événement. Lissage ET décalage. Ce que je montre est l'exemple le moins déroutant de beaucoup car il réduit la collision des parcelles superposées.
Carl

1
{,}UNEB|UNE||B|.

1
Je pense que je détecte une source potentielle de confusion dans ces modifications en cours. Parce que cela prendrait trop de temps à expliquer dans un commentaire, j'ai ajouté une modification à ma réponse dans l'espoir que cela puisse aider un peu. En effet, la première ligne originale de ma réponse était trompeuse à ce sujet, je l'ai donc corrigée également avec mes excuses.
whuber

1

Cette question est peut-être ancienne, mais j'aimerais apporter une autre perspective. Il s'appuie sur une formule pour un changement de variable dans une densité de probabilité conjointe. Il peut être trouvé dans les notes de cours: Probabilité et processus aléatoires au KTH, 2017 Ed. (Koski, T., 2017, pp 67), qui fait lui-même référence à une preuve détaillée dans Analysens Grunder, del 2 (Neymark, M., 1970, pp 148-168):


X=(X1,X2,...,Xm)FX(X1,X2,...,Xm)Y=(Y1,Y2,...,Ym)

Yje=gje(X1,X2,...,Xm),je=1,2,...,m

gje(g1,g2,...,gm)

Xje=hje(Y1,Y2,...,Ym),je=1,2,...,m

Y

FY(y1,y2,...,ym)=FX(h1(X1,X2,...,Xm),h2(X1,X2,...,Xm),...,hm(X1,X2,...,Xm))|J|

J

J=|X1y1X1y2...X1ymX2y1X2y2...X2ymXmy1Xmy2...Xmym|


X1+X2

X=(X1,X2)FX(X1,X2)Y=(Y1,Y2)

Y1=g1(X1,X2)=X1+X2Y2=g2(X1,X2)=X2.

La carte inverse est alors

X1=h1(Y1,Y2)=Y1-Y2X2=h2(Y1,Y2)=Y2.

X1X2Y

FY(y1,y2)=FX(h1(y1,y2),h2(y1,y2))|J|=FX(y1-y2,y2)|J|=FX1(y1-y2)FX2(y2)|J|

J

J=|X1y1X1y2X2y1X2y2|=|1-101|=1

Y1=X1+X2

FY1=-FY(y1,y2)y2=-FX(h1(y1,y2),h2(y1,y2))|J|y2=-FX1(y1-y2)FX2(y2)y2

c'est là que nous trouvons votre convolution: D


0

Des expressions générales pour les sommes de n variables aléatoires continues se trouvent ici:

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0216422

"Modèles à plusieurs étapes pour la défaillance de systèmes complexes, les catastrophes en cascade et l'apparition de maladies"

Pour les variables aléatoires positives, la somme peut être simplement écrite en termes d'un produit de transformées de Laplace et l'inverse de leur produit. La méthode est adaptée à partir d'un calcul publié dans le manuel ET Jaynes "Probability Theory".


Bienvenue sur notre site. Vous pouvez trouver le fil sur stats.stackexchange.com/questions/72479 , ainsi que le document Moschopolous auquel il fait référence, pour vous intéresser.
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.