Une généralisation du droit des attentes itérées


43

Je suis récemment tombé sur cette identité:

E[E(Y|X,Z)|X]=E[Y|X]

Je suis bien sûr familier avec la version simplifiée de cette règle, à savoir que mais je n’ai pas pu trouver de justification pour sa généralisation.E[E(Y|X)]=E(Y)

Je serais reconnaissant si quelqu'un pouvait m'indiquer une référence peu technique pour ce fait ou, mieux encore, si quelqu'un pouvait fournir une simple preuve de ce résultat important.


2
Si était lui-même conditionné à un certain cela ne tomberait-il pas exactement dans la version la plus simple? xyx
Mehrdad

Réponses:


36

TRAITEMENT INFORMEL

Nous devons nous rappeler que la notation où nous conditionnons sur des variables aléatoires est imprécise, bien qu'économique, en tant que notation. En réalité, nous conditionnons sur la sigma-algèbre que ces variables aléatoires génèrent. En d'autres termes, signifie . Cette remarque peut sembler déplacée dans un "traitement informel", mais elle nous rappelle que nos entités de conditionnement sont des ensembles d' ensembles (et lorsque nous conditionnons sur une valeur unique, il s'agit d'un ensemble singleton). Et que contiennent ces ensembles? Ils contiennent les informations dont les valeurs possibles de la variable aléatoire nous fournir sur ce qui peut arriver à la réalisation de .E[YX]X Y σ ( X ) σ ( X , Z ) Y de ( X , Z ) σ ( X ) σ ( X ) I x σ ( X , Z ) I x zE[Yσ(X)]XY
Introduire le concept d'information nous permet de réfléchir (et d'utiliser) le droit des attentes itérées (parfois appelé "propriété de tour") de manière très intuitive:
la sigma-algèbre générée par deux variables aléatoires est au moins aussi grand comme celui généré par une variable aléatoire: dans la signification correcte de la théorie des ensembles. Ainsi, les informations sur contenues dans sont au moins aussi importantes que les informations correspondantes dans . Maintenant, comme allusion notative, définissez et . Ensuite, le LHS de l'équation que nous examinons, peut être écritσ(X)σ(X,Z)Yσ(X,Z)σ(X)
σ(X)Ixσ(X,Z)Ixz

Y I ix z I x

E[E(Y|Ixz)|Ix]
Décrivant verbalement l'expression ci-dessus, nous avons: "quelle est l'attente de {la valeur attendue de étant donné Information } étant donné que nous avons les informations disponibles seulement ? " YIxzIx

Peut-on en quelque sorte "prendre en compte" ? Non, nous ne connaissons que . Mais si nous utilisons ce que nous avons (comme nous sommes obligés par l'expression que nous voulons résoudre), nous disons essentiellement des choses à propos de sous l'opérateur des attentes, c'est-à-dire que nous disons " ", sans plus - nous venons d'épuiser nos informations. I ix Y E ( Y | I ix )IxzIxYE(YIx)

D'où

E[E(Y|Ixz)|Ix]=E(Y|Ix)

Si quelqu'un d'autre ne le fait pas, je reviendrai pour le traitement formel.

Un (un peu plus) TRAITEMENT FORMEL

Voyons comment deux livres très importants de la théorie des probabilités, Probability and Measure de P. Billingsley (3 e éd.-1995) et D. Williams "Probability with Martingales" (1991), traitent de la question de la "loi des attentes itératives":
Billingsley consacre exactement trois lignes à la preuve. Williams, et je cite, dit

"(la propriété de la tour) est pratiquement immédiate de la définition de l'espérance conditionnelle".

C'est une ligne de texte. La preuve de Billingsley n'est pas moins opaque.

Ils ont bien entendu raison: cette propriété importante et très intuitive de l’espérance conditionnelle découle essentiellement directement (et presque immédiatement) de sa définition. Le seul problème est que, je suppose, cette définition n’est généralement pas enseignée, ou du moins n’est pas mise en évidence, hors probabilité. ou mesurer des cercles théoriques. Mais pour montrer en (presque) trois lignes que la loi des attentes itérées tient, nous avons besoin de la définition de l’attente conditionnelle, ou plutôt de sa propriété qui la définit .

Laisser un espace de probabilité , et une variable aléatoire intégrable . Let un sous -algèbre de , . Alors il existe une fonction qui est , est intégrable et (c'est la propriété qui définit)Y G σ F GF W G(Ω,F,P)YGσFGFWG

E(W1G)=E(Y1G)GG[1]

où est la fonction indicatrice de l'ensemble . Nous disons que est ("une version de") l'attente conditionnelle de donnée , et nous écrivons Le détail essentiel à noter ici est que l'attente conditionnelle , a la même valeur que prévu ne, pas seulement sur l'ensemble , mais dans tous les sous - ensemble de . G W Y G W = E ( Y G )1GGWYGY G G GW=E(YG)a.s.
YGGG

(J'essaierai maintenant de présenter comment la propriété Tower découle de la définition de l'espérance conditionnelle).

G σ HG G HG G W H U = E ( W H )W est une variable aléatoire . Considérons alors une sous -algèbre, dire . Alors . Ainsi, d'une manière analogue comme précédemment, nous avons l'espérance conditionnelle de donnée , par exemple cela est caractérisé par GσHGGHGGWHU=E(WH)a.s.

E(U1G)=E(W1G)GH[2]

Depuis , les équations et nous donnent [ 1 ] [ 2 ]HG[1][2]

E(U1G)=E(Y1G)GH[3]

Mais c'est la propriété déterminante de l'espérance conditionnelle de donné . HYHNous avons donc le droit d'écrire nous avons aussi par construction , nous venons de prouver la propriété Tower, ou le forme générale de la loi des attentes itérées - en huit lignes.U = E ( W | H ) = E ( E [ Y | G ] | H )U=E(YH)a.s.
U=E(WH)=E(E[YG]H)


6
(+1) C'est un moyen utile de décrire un concept abstrait et difficile. Je crois cependant que la phrase "... n'est pas plus grande ..." devrait être "n'est pas plus petite". Mieux encore, cette section pourrait être plus clair en supprimant les négatifs et en utilisant une construction parallèle, comme dans « L'algèbre sigma générée par deux variables est au moins aussi grande que celle générée par une variable aléatoire ... Donc , les informations sur contenu dans est au moins aussi grande que l'information correspondante dans . " σ ( X , Z ) σ ( X )Yσ(X,Z)σ(X)
whuber

Merci à vous deux, cc @whuber. C'est un théorème très utile.
JohnK

@ Whuber Merci d'avoir remarqué cela - et pour la suggestion.
Alecos Papadopoulos

24

La façon dont je comprends les attentes conditionnelles et enseigne à mes étudiants est la suivante:

espérance conditionnelle est une image prise par un appareil photo avec une résolutionσ ( X )E[Y|σ(X)]σ(X)

Comme mentionné par Alecos Papadopoulos, la notation est plus précise que . Le long de la ligne de la caméra, on peut considérer comme l’objet original, par exemple un paysage, un paysage. est une image prise par un appareil photo avec une résolution . L'attente est un opérateur de calcul de la moyenne (opérateur "flou"?). La scène peut contenir beaucoup de choses, mais la photo que vous avez prise avec une caméra à basse résolution fera certainement disparaître certains détails, par exemple, il peut y avoir un OVNI dans le ciel qui peut être vu à l'oeil nu apparaître dans votre photo prise par (iphone 3?)E [ Y | X ] Y E [ Y | σ ( X , Z ) ] σ ( X , Z )E[Y|σ(X)]E[Y|X]YE[Y|σ(X,Z)]σ(X,Z)

Si la résolution est si élevée que , cette image est capable de capturer tous les détails de la scène réelle. Dans ce cas, nous avons .E [ Y | σ ( Y ) ] = Yσ(X,Z)=σ(Y)E[Y|σ(Y)]=Y

Maintenant, peut être vu comme: utilisant un autre appareil photo avec une résolution (par exemple, iphone 1) qui est inférieure à (par exemple, iphone 3) et prenez une photo sur cette image générée par l'appareil photo avec la résolution , alors il devrait être clair que cette image sur une photo doit être la même que si vous l'aviez initialement utilisez simplement une caméra avec une résolution basse sur la scène.σ ( X ) σ ( X , Z ) σ ( X , Z ) σ ( X )E[E[Y|σ(X,Z)]|σ(X)]σ(X)σ(X,Z)σ(X,Z)σ(X)

Ceci fournit une intuition sur . En fait, cette même intuition nous dit que toujours. C’est parce que: si votre première photo est prise par l’iphone 1 (c’est-à-dire en basse résolution) et que vous souhaitez maintenant utiliser un meilleur appareil photo (par exemple, un iphone 3) pour générer une autre photo sur la première photo, peut améliorer la qualité de la première photo.E [ E [ Y | X ] | X , Z ] = E [ Y | X ]E[E[Y|X,Z]|X]=E[Y|X]E[E[Y|X]|X,Z]=E[Y|X]


2
aimer! :) bonne explication.
jessica

1
@ jessica Je suis content que cela aide :-) Il m'a fallu un certain temps pour trouver cette explication
KevinKim

21

Dans la loi de l'attente itérée (LIE), , cette attente interne est une variable aléatoire qui se trouve être une fonction de , disons , et non une fonction de . Le fait que l'attente de cette fonction de égale à l'attente de est une conséquence d'un LIE. Tout ce que ceci est, en agitant de la main, juste l'affirmation que la valeur moyenne de peut être trouvée en faisant la moyenne des valeurs moyennes de dans diverses conditions. En réalité, tout cela n’est qu’une conséquence directe de la loi de la probabilité totale. Par exemple, si etE[E[YX]]=E[Y]Xg(X)YXYYYXY sont des variables aléatoires discrètes avec joint pmf , puis \ scriptstyle {\ text {RV} ~ E [Y \ mid X] ~ \ text {a une valeur} ~ E [Y \ mid X = x] ~ \ text {quand} ~ X = x} \ end {align} Notice comment cette dernière attente est par rapport à ;pX,Y(x,y)

E[Y]=yypY(y)definition=yyxpX,Y(x,y)write in terms of joint pmf=yyxpYX(yX=x)pX(x)write in terms of conditional pmf=xpX(x)yypYX(yX=x)interchange order of summation=xpX(x)E[YX=x]inner sum is conditional expectation=E[E[YX]]RV E[YX] has value E[YX=x] when X=x
XE[YX] est une fonction de , et non de , mais néanmoins sa moyenne est la même que la moyenne de .XYY

Le LIE généralisé que vous regardez a à gauche dans lequel l'attente interne est une fonction de deux variables aléatoires et . L'argument est similaire à celui décrit ci-dessus, mais nous devons maintenant montrer que la variable aléatoire est égale à une autre variable aléatoire. Nous faisons cela en regardant la valeur de quand a la valeur . Sauter les explications, nous avons cela E[E[YX,Z]X]h(X,Z)XZ E[YX]E[YX]Xx

E[YX=x]=yypYX(yX=x)=yypX,Y(x,y)pX(x)=yyzpX,Y,Z(x,y,z)pX(x)=yyzpYX,Z(yX=x,Z=z)pX,Z(x,z)pX(x)=zpX,Z(x,z)pX(x)yypYX,Z(yX=x,Z=z)=zpZX(zX=x)yypYX,Z(yX=x,Z=z)=zpZX(zX=x)E[YX=x,Z=z)=E[E[YX,Z]X=x]
Notez que l'avant-dernier côté droit est la formule de la valeur attendue conditionnelle de la variable aléatoireZ] (fonction de et ) conditionnéE[YX,Z]XZsur la valeur de . Nous fixons pour qu'il ait la valeur , en multipliant les valeurs de la variable aléatoire par la valeur pmf conditionnelle de donnée , et en additionnant tous ces termes.XXxE[YX,Z]ZX

Ainsi, pour chaque valeur de la variable aléatoire , la valeur de la variable aléatoire (notée précédemment est une fonction de et non de ), est identique à la valeur de la variable aléatoire variable , c'est-à-dire que ces deux variables aléatoires sont égales. Est-ce que je te mentirais?X E [ Y | X ] X Y E [ E [ Y | X , Z ] | X ]xXE[YX]XYE[E[YX,Z]X]

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.