Variance du produit de k variables aléatoires corrélées


Réponses:


12

Plus d'informations sur ce sujet que vous n'en avez probablement besoin peuvent être trouvées dans Goodman (1962): "The Variance of the Product of K Random Variables" , qui dérive des formules pour les variables aléatoires indépendantes et les variables aléatoires potentiellement corrélées, ainsi que quelques approximations. Dans un article précédent ( Goodman, 1960 ), la formule pour le produit d'exactement deux variables aléatoires a été dérivée, ce qui est un peu plus simple (bien que toujours assez noueux), ce qui pourrait être un meilleur endroit pour commencer si vous voulez comprendre la dérivation .

Pour être complet, cependant, cela se passe comme ceci.

Deux variables

Supposons ce qui suit:

  • yx et sont deux variables aléatoiresy
  • YX et sont leurs attentes (non nulles)Y
  • V ( y )V(x) et sont leurs variancesV(y)
  • δ yδx=(xX)/X (et de même pour )δy
  • Di,j=E[(δx)i(δy)j]
  • Δ yΔx=xX (et de même pour )Δy
  • Ei,j=E[(Δx)i(Δy)j]
  • V ( x ) / X 2 G ( Y )G(x) est le coefficient de variation au carré: (de même pour )V(x)/X2G(Y)

Alors: ou équivalent:

V(xy)=(XY)2[G(y)+G(x)+2D1,1+2D1,2+2D2,1+D2,2D1,12]

V(xy)=X2V(y)+Y2V(x)+2XYE1,1+2XE1,2+2YE2,1+E2,2E1,12

Plus de deux variables

L'article de 1960 suggère qu'il s'agit d'un exercice pour le lecteur (qui semble avoir motivé l'article de 1962!).

La notation est similaire, avec quelques extensions:

  • x y(x1,x2,xn) sont les variables aléatoires au lieu de etxy
  • M=E(i=1kxi)
  • A=(M/i=1kXi)1
  • i = 1 , 2 , ksi = 0, 1 ou 2 pouri=1,2,k
  • ( s 1 , s 2 , s k )u = nombre de 1 dans(s1,s2,sk)
  • ( s 1 , s 2 , s k )m = nombre de 2 dans(s1,s2,sk)
  • m = 0 2 u m > 1D(u,m)=2u2 pour et pour ,m=02um>1
  • C(s1,s2,,sk)=D(u,m)E(i=1kδxisi)
  • s1sk indique la somme des ensembles de où3kk1(s1,s2,sk)2m+u>1

Puis enfin:

V(i=1kxi)=Xi2(s1skC(s1,s2sk)A2)

Voir les papiers pour plus de détails et des approximations légèrement plus maniables!


veuillez noter que la réponse ci-dessus de Matt Krause contient une erreur ainsi que le document lui-même. Dans la définition de la fonction C (s1, ..., sk) il doit s'agir d'un produit au lieu d'une somme.
Nicolas Gisler

Pourriez-vous élaborer un peu plus ..? "Parce que moi - une personne anonyme d'Internet - le dis" n'est pas vraiment une réponse ...
Tim

Si vous essayez d'obtenir la variance var (x * y) pour les variables aléatoires indépendantes, via la formule pour k arbitraire, vous pouvez voir que seul un produit et non une somme vous donne la bonne réponse. De plus, si vous regardez le document, vous pouvez également le voir, à la page 59 du document (du moins dans ma version), il a utilisé un produit au lieu d'une somme.
Nicolas Gisler

1
Dans le cas de deux variables aléatoires, une formule plus facile à lire pour la variance du produit de deux variables aléatoires corrélées peut être trouvée dans cette réponse par @macro. Cette réponse souligne également le problème essentiel dans savoir, le fourré de notation cache le fait essentiel qu'il contient des termes dont la valeur ne peut être déterminée que si nous connaissons cov , ou assez sur la densité conjointe des deux variables aléatoires pour déterminer cette quantité.
V(xy)=X2V(y)+Y2V(x)+2XYE1,1+2XE1,2+2YE2,1+E2,2E1,12,
(x2,y2)
Dilip Sarwate

Une suggestion de révision, qui aurait vraiment dû être un commentaire, a suggéré que le document original contenait une faute de frappe où une somme et un produit étaient mélangés et cette réponse devrait être modifiée. Voir stats.stackexchange.com/review/suggested-edits/83662
Silverfish

4

Juste pour ajouter à la réponse impressionnante de Matt Krause (en fait facilement dérivable de là). Si x, y sont indépendants, alors,

E1,1=E[(xE[x])(yE[y])]=Cov(x,y)=0E1,2=E[(xE[x])(yE[y])2]=E[xE(x)]E[(yE[y])2]=(E[x]E[x])E[(yE[y])2]=0E2,1=0E2,2=E[(xE[x])2(yE[y])2]=E[(xE[x])2]E[(yE[y])2=V[x]V[y]V[xy]=E[x]2V[y]+E[y]2V[x]+V[x]V[y]

1
Le résultat pour le cas de variables aléatoires indépendantes a été discuté ici . n
Dilip Sarwate

3

En plus de la formule générale donnée par Matt, il convient de noter qu'il existe une formule un peu plus explicite pour les variables aléatoires gaussiennes moyennes nulles. Il découle du théorème d' Isserlis , voir aussi Moments supérieurs pour la distribution normale multivariée centrée.

Supposons que suit une distribution normale multivariée avec une moyenne de 0 et une matrice de covariance . Si le nombre de variables est impair, et où signifie la somme de toutes les partitions de en paires disjointes chaque terme étant un produit des , et où Σ k E ( i x i ) = 0 V ( i ˜ Σ i , j ˜ Σ = ( Σ Σ Σ Σ ) ( x 1 , , V ( x 1 x 2 ) = Σ 1 , 1 Σ(x1,,xk)ΣkE(ixi)=0

V(ixi)=E(ixi2)=Σ~i,j
Σ{1,,2k}k{i,j}k Σ~i,j
Σ~=(ΣΣΣΣ)
est la matrice de covariance pour . Si est pair, Dans le cas nous obtenons Si nous obtenons où il y a 15 termes dans la somme.(x1,,xk,x1,,xk)k
V(ixi)=Σ~i,j(Σi,j)2.
k=2
V(x1x2)=Σ1,1Σ2,2+2(Σ1,2)2Σ1,22=Σ1,1Σ2,2+(Σ1,2)2.
k=3
V(x1x2x3)=Σi,jΣk,lΣr,t,

Il est en effet possible de mettre en œuvre la formule générale. La partie la plus difficile semble être le calcul des partitions requises. Dans R, cela peut être fait avec la fonction setpartsdu package partitions. En utilisant ce package, il n'a pas été difficile de générer les 2 027 025 partitions pour , les 34 459 425 partitions pour également pu être générées, mais pas les 654 729 075 partitions pour (sur mon ordinateur portable de 16 Go).k = 9 k = 10k=8k=9k=10

Deux autres choses méritent d'être notées. Premièrement, pour les variables gaussiennes avec une moyenne non nulle, il devrait être possible de dériver une expression également à partir du théorème d'Isserlis. Deuxièmement, il n'est pas clair (pour moi) si la formule ci-dessus est robuste contre les écarts par rapport à la normalité, c'est-à-dire si elle peut être utilisée comme approximation même si les variables ne sont pas multivariées normalement distribuées. Troisièmement, bien que les formules ci-dessus soient correctes, on peut se demander dans quelle mesure la variance indique la distribution des produits. Même pour la distribution du produit est assez leptokurtic, et pour plus grand, il devient rapidement extrêmement leptokurtic.kk=2k


Approche soignée! Pour ce qu'elle vaut, la formule dans ma réponse a aussi une explosion combinatoire: la sommation sur C implique la sommation des termes . O(3k)
Matt Krause
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.