Quelle est la différence entre et ?


18

Généralement, quelle est la différence entre et ?E(X|Y)E(X|Y)E(X|Y=y)E(X|Y=y)

Le premier est fonction de et le dernier est fonction de ? C'est tellement déroutant ..y xyx


Hmmm ... Ce dernier ne devrait pas être une fonction de x mais un nombre! Ai-je tort?
David

Réponses:


23

En gros, la différence entre E ( X Y )E(XY) et E ( X Y = y )E(XY=y) est que la première est une variable aléatoire, tandis que la seconde est (dans un certain sens) une réalisation de E ( X Y )E(XY) . Par exemple, si ( X , Y ) N ( 0 , ( 1 ρ ρ 1 ) )

(X,Y)N(0,(1ρρ1))
alors E ( X Y )E(XY)est la variable aléatoire E ( X | Y ) = ρ Y .
E(XY)=ρY.
Inversement, une fois que Y = yY=y est observé, nous serions plus susceptibles d'être intéressés par la quantité E ( X Y = y ) = ρ yE(XY=y)=ρy qui est un scalaire.

Cela semble peut-être une complication inutile, mais le fait de considérer E ( X Y ) comme une variable aléatoire en soi est ce qui rend les choses comme la loi de la tour E ( X ) = E [ E ( X Y ) ] logique - la chose à l'intérieur des accolades est aléatoire, donc nous pouvons demander quelle est son attente, alors qu'il n'y a rien de aléatoire à propos de E ( X Y = y ) . Dans la plupart des cas, nous pourrions espérer calculer E ( X Y =E(XY)E(X)=E[E(XY)]E(XY=y)y ) = x f X Y ( x y ) d x 

E(XY=y)=xfXY(xy) dx

puis obtenir E ( X Y ) en «branchant» la variable aléatoire Y à la place de y dans l'expression résultante. Comme indiqué dans un commentaire précédent, il y a un peu de subtilité qui peut s'introduire dans la façon dont ces choses sont rigoureusement définies et les relient de la manière appropriée. Cela a tendance à se produire avec une probabilité conditionnelle, en raison de certains problèmes techniques avec la théorie sous-jacente.E(XY)Yy


8

Supposons que XX et YOui sont des variables aléatoires.

Soit y 0y0 un nombre réel fixe , disons y 0 = 1y0= 1 . Alors, E [ X Y = y 0 ] = E [ X Y = 1 ]E[XY=y0]=E[XY=1] est un nombre : c'est la valeur conditionnelle attendue de XX étant donné que YY a la valeur 11 . Maintenant, notez pour un autre nombre réel fixe y 1y1 , disons y 1 = 1,5y1=1.5 , E [ X Y = y 1 ] = E [ X Y = 1,5 ]E[XY=y1]=E[XY=1.5] serait la valeur attendue conditionnelle de XX étant donné Y = 1,5Y=1.5 (un nombre réel). Il n'y a aucune raison de supposer que E [ X Y = 1,5 ]E[XY=1.5] et E [ X Y = 1 ]E[XY=1] ont la même valeur. Ainsi, on peut aussi considérer E [ X Y = y ]E[XY=y] comme étant un fonction g ( y ) à valeurg(y) réelle qui mappe les nombres réels yy aux nombres réels E [ X Y = y ]E[XY=y] . Notez que l'énoncé de la question de l'OP selon lequel E [ X Y = y ]E[XY=y] est une fonction de xx est incorrect: E [ X Y = y ]E[XY=y] est une fonction à valeur réelle de yy .

D'autre part, E [ X | Y ]E[XY] est une variable aléatoire ZZ qui se trouve être une fonction de la variable aléatoire YY . Maintenant, chaque fois que nous écrivons Z = h ( Y )Z=h(Y) , ce que nous voulons dire, c'est que chaque fois que la variable aléatoire YY a la valeur yy , la variable aléatoire ZZ a la valeur h ( y )h(y) . Chaque fois que YY prend la valeur yy , la variable aléatoire Z = E [X Y ]Z=E[XY] prend la valeur E [ X Y = y ] = g ( y )E[XY=y]=g(y) . Ainsi, E [ X Y ]E[XY] n'est qu'un autre nom pour la variable aléatoire Z = g ( Y )Z=g(Y) . Notez que E [ X Y ]E[XY] est une fonction de YY (pas yy comme dans l'énoncé de la question du PO).

Comme exemple illustratif simple, supposons que XX et YY sont des variables aléatoires discrètes avec une distribution conjointe P ( X = 0 , Y = 0 )= 0,1 , P ( X = 0 , Y = 1 ) = 0,2 ,   P ( X = 1 , Y = 0 )= 0,3 , P ( X = 1 , Y = 1 ) = 0,4.   

P(X=0,Y=0)P(X=1,Y=0)=0.1,  P(X=0,Y=1)=0.2,=0.3,  P(X=1,Y=1)=0.4.
Notez queXXetYYsontdes variables aléatoires deBernoulli(dépendantes)avec les paramètres0,70.7et0,60.6respectivement, et doncE[X]=0,7E[X]=0.7 etE[Y]=0,6E[Y]=0.6. Maintenant, notez queconditionnéeàY=0Y=0,XXest une variable aléatoire de Bernoulli avec le paramètre 0.750.75 alors qu'elle est conditionnée à Y = 1Y=1 , XX est une variable aléatoire de Bernoulli avec le paramètre 2323 . Si vous ne voyez pas pourquoi il en est ainsi immédiatement, déterminez simplement les détails: par exemple P(X=1Y=0)=P(X=1,Y=0)P ( Y = 0 ) =0,30,4 =34 ,P(X=0Y=0)=P(X=0,Y=0)P(Y=0)=0.10.4=14,
P(X=1Y=0)=P(X=1,Y=0)P(Y=0)=0.30.4=34,P(X=0Y=0)=P(X=0,Y=0)P(Y=0)=0.10.4=14,
and similarly for P(X=1Y=1)P(X=1Y=1) and P(X=0Y=1)P(X=0Y=1). Hence, we have that E[XY=0]=34,E[XY=1]=23.
E[XY=0]=34,E[XY=1]=23.
Thus, E[XY=y]=g(y)E[XY=y]=g(y) where g(y)g(y) is a real-valued function enjoying the properties: g(0)=34,g(1)=23.
g(0)=34,g(1)=23.

On the other hand, E[XY]=g(Y)E[XY]=g(Y) is a random variable that takes on values 3434 and 2323 with probabilities 0.4=P(Y=0)0.4=P(Y=0) and 0.6=P(Y=1)0.6=P(Y=1) respectively. Note that E[XY]E[XY] is a discrete random variable but is not a Bernoulli random variable.

As a final touch, note that E[Z]=E[E[XY]]=E[g(Y)]=0.4×34+0.6×23=0.7=E[X].

E[Z]=E[E[XY]]=E[g(Y)]=0.4×34+0.6×23=0.7=E[X].
That is, the expected value of this function of YY, which we computed using only the marginal distribution of YY, happens to have the same numerical value as E[X]E[X] !! This is an illustration of a more general result that many people believe is a LIE: E[E[XY]]=E[X].
E[E[XY]]=E[X].

Sorry, that's just a small joke. LIE is an acronym for Law of Iterated Expectation which is a perfectly valid result that everyone believes is the truth.


3

E(X|Y)E(X|Y) is the expectation of a random variable: the expectation of XX conditional on YY. E(X|Y=y)E(X|Y=y), on the other hand, is a particular value: the expected value of XX when Y=yY=y.

Think of it this way: let XX represent the caloric intake and YY represent height. E(X|Y)E(X|Y) is then the caloric intake, conditional on height - and in this case, E(X|Y=y)E(X|Y=y) represents our best guess at the caloric intake (XX) when a person has a certain height Y=yY=y, say, 180 centimeters.


4
I believe your first sentence should replace "distribution" with "expectation" (twice).
Glen_b -Reinstate Monica

4
E(XY)E(XY) isn't the distribution of XX given YY; this would be more commonly denotes by the conditional density fXY(xy)fXY(xy) or conditional distribution function. E(XY)E(XY) is the conditional expectation of XX given YY, which is a YY-measurable random variable. E(XY=y)E(XY=y) might be thought of as the realization of the random variable E(XY)E(XY) when Y=yY=y is observed (but there is the possibility for measure-theoretic subtlety to creep in).
guy

1
@guy Your explanation is the first accurate answer yet provided (out of three offered so far). Would you consider posting it as an answer?
whuber

@whuber I would but I'm not sure how to strike the balance between accuracy and making the answer suitably useful to OP and I'm paranoid about getting tripped up on technicalities :)
guy

@Guy I think you have already done a good job with the technicalities. Since you are sensitive about communicating well with the OP (which is great!), consider offering a simple example to illustrate--maybe just a joint distribution with binary marginals.
whuber

1

E(X|Y)E(X|Y) is expected value of values of X given values of Y E(X|Y=y) is expected value of X given the value of Y is y

Generally P(X|Y) is probability of values X given values Y, but you can get more precise and say P(X=x|Y=y), i.e. probability of value x from all X's given the y'th value of Y's. The difference is that in the first case it is about "values of" and in the second you consider a certain value.

You could find the diagram below helpful.

Bayes theorem diagram form Wikipedia


This answer discusses probability, while the question asks about expectation. What is the connection?
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.