Problème avec la preuve de l'attente conditionnelle comme meilleur prédicteur


19

J'ai un problème avec la preuve de

E(Y|X)argming(X)E[(Yg(X))2]

qui révèlent très probablement une incompréhension plus profonde des attentes et des attentes conditionnelles.

La preuve que je connais va comme suit (une autre version de cette preuve peut être trouvée ici )

argming(X)E[(Yg(x))2]=argming(X)E[(YE(Y|X)+E(Y|X)g(X))2]=argming(x)E[(YE(Y|X))2+2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=argming(x)E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]

La preuve continue ensuite généralement avec un argument montrant que 2E[(YE(Y|X))(E(Y|X)g(X))]=0 , et donc

argming(x)E[(Yg(x))2]=argming(x)E[(E(Y|X)g(X))2]

qui peut être considéré comme minimisé lorsque g(X)=E(Y|X) .

Mes puzzles sur la preuve sont les suivants:

  1. Considérer

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2] .

Il me semble que, indépendamment de tout argument montrant que le premier terme est toujours égal à zéro, on peut voir que la définition de g(X)=E(Y|X) minimise l'expression car elle implique (E(Y|X)g(X))=0 et donc

E[2(YE(Y|X))(E(Y|X)g(X))+(E(Y|X)g(X))2]=E(0+0) = 0.

Mais si cela est vrai, alors on pourrait répéter la preuve en remplaçant par n'importe quelle autre fonction de , disons , et arriver à la conclusion que c'est qui minimise l'expression. Il doit donc y avoir quelque chose que je ne comprends pas (non?).X h ( X ) h ( X )E(Y|X)Xh(X)h(X)

  1. J'ai quelques doutes sur la signification de dans l'énoncé du problème. Comment interpréter la notation? Est-ce que ça veut dire queE[(Yg(X))2]

EX[(Yg(X))2] , ou ?E X Y [ ( Y - g ( X ) ) 2 ]EY[(Yg(X))2]EXY[(Yg(X))2]

Réponses:


11

(Il s'agit d'une adaptation de Granger et Newbold (1986) "Forecasting Economic Time Series").

Par construction, votre fonction de coût d'erreur est . Ceci incorpore une hypothèse critique (que la fonction de coût d'erreur est symétrique autour de zéro) - une fonction de coût d'erreur différente n'aurait pas nécessairement la valeur attendue conditionnelle comme de sa valeur attendue. Vous ne pouvez pas minimiser votre fonction de coût d'erreur car elle contient des quantités inconnues. Vous décidez donc de minimiser sa valeur attendue à la place. Ensuite, votre fonction objective devient argmin[Yg(X)]2argmin

E[Yg(X)]2=[yg(X)]2fY|X(y|x)dy

qui, je crois, répond également à votre deuxième question. Il est intuitif que la valeur attendue sera de conditionnelle à , puisque nous essayons d'estimer / prévision basée sur . Décomposer le carré pour obtenirX Y XYXYX

E[Yg(X)]2=y2fY|X(y|x)dy2g(X)yfY|X(y|x)dy+[g(X)]2fY|X(y|x)dy

Le premier terme ne contient pas donc il n'affecte pas la minimisation et il peut être ignoré. L'intégrale dans le deuxième terme est égale à la valeur attendue conditionnelle de étant donné , et l'intégrale dans le dernier terme est égale à l'unité. DoncY Xg(X)YX

argming(x)E[Yg(X)]2=argming(x){2g(X)E(YX)+[g(X)]2}

La dérivée première wrt est conduisant à la condition de premier ordre pour la minimisation tandis que la dérivée seconde est égale à ce qui est suffisant pour un minimum.- 2 E ( Y X ) + 2 g ( X ) g ( X ) = E ( Y X ) 2 > 0g(X)2E(YX)+2g(X)g(X)=E(YX)2>0

ADDENDUM: La logique de l'approche de preuve "ajouter et soustraire".

Le PO est intrigué par l'approche énoncée dans la question, car elle semble tautologique. Ce n'est pas le cas, car en utilisant la tactique d'addition et de soustraction, une partie spécifique de la fonction objectif est nulle pour un choix arbitraire du terme qui est ajouté et soustrait, il n'égale PAS la fonction de valeur , à savoir la valeur de l'objectif fonction évaluée au minimiseur candidat.

Pour le choix nous avons la fonction de valeur Pour le choix arbitraire nous avons la fonction funtion .V ( E ( Y X ) ) = E [ ( Y - E ( Y X ) ) 2X ] g ( X ) = h ( X ) V ( h ( X ) ) = E [ ( Y - h (g(X)=E(YX)V(E(YX))=E[(YE(YX))2X]g(X)=h(X)V(h(X))=E[(Yh(X))2X]

Je prétends que

E ( Y 2X ) - 2 E [ ( Y E ( Y X ) ) X ] + E [ ( E ( Y X ) ) 2X ]

V(E(YX))V(h(X))
E(Y2X)2E[(YE(YX))X]+E[(E(YX))2X]E(Y2X)2E[(Yh(X))X]+E[(h(X))2X]

Le premier terme du LHS et du RHS s'annule. A noter également que l'attente extérieure est conditionnelle à . Par les propriétés des attentes conditionnelles, nous nous retrouvons avecX

...2E(YX)E(YX)+[E(YX)]22E(YX)h(X)+[h(X)]2

0[E(YX)]22E(YX)h(X)+[h(X)]2

h ( x ) E ( Y X ) E ( Y X )

0[E(YX)h(x)]2
qui tient avec une inégalité stricte si . Donc est le minimiseur global et unique.h(x)E(YX)E(YX)

Mais cela indique également que l'approche «ajouter et soustraire» n'est pas le moyen de preuve le plus éclairant ici.


Merci pour votre réponse. Cela aide à clarifier ma deuxième question. Comme j'ai essayé de le transmettre dans le titre de la question, mon principal problème (le premier dans le message) concernait davantage le mécanisme de preuve. Ma principale préoccupation concerne ma compréhension de la preuve que j'ai présentée dans la question. Comme je l'ai expliqué, ma compréhension de la preuve m'amène à une déclaration manifestement problématique. Je voudrais donc comprendre où est mon erreur car elle pourrait révéler des malentendus plus profonds sur les concepts d'attente et d'attente conditionnelle. Des pensées à ce sujet?
Martin Van der Linden du

1
J'ai ajouté quelques explications sur l'approche «ajouter et soustraire» à la preuve.
Alecos Papadopoulos

Cela m'a pris un certain temps pour le comprendre, mais j'ai finalement eu mon erreur de base: assez vrai lorsque , mais cela n'implique nullement que minimise l'expression . Il n'y a aucune raison pour que l'expression entre crochets ne puisse pas être inférieure à zéro. En raison du signe moins devant on pourrait trouver un tel que . g ( X ) = h ( X ) h ( X ) ( Y - h ( X ) ) (E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]=0g(X)=h(X)h(X) g ( X ) E [ - 2 ( Y - h ( X ) ) ( h ( X ) - g ( X ) ) + ( h ( X ) - g ( X ) ) 2 ] < 0(Yh(X))(h(X)g(X))g(X)E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]<0
Martin Van der Linden

1
Hmmm ... le signe moins dans l'expression à laquelle vous faites référence est une erreur - ce devrait être un signe plus. Vous pouvez bien sûr réorganiser les termes pour obtenir à nouveau un signe moins ... cela nuit-il à l'intuition que vous avez acquise?
Alecos Papadopoulos

Merci d'avoir répondu à la question. J'ai édité le post initial pour corriger cette erreur. Heureusement, je pense que cela ne nuit pas à l'intuition acquise. En fait, cela m'aide à comprendre une autre erreur: je supposais que le signe moins était important pour garantir que n'était pas nécessairement le minimum de . Mais je sais que ce n'est pas seulement le signe avant 2. (Si tout va bien) Ce que je avais vraiment besoin de comprendre est que, en général ( par exemple pour arbitraire ) n'a pas besoin d'être minimisé lorsque (non?). 0E[2(Yh(X))(h(X)g(X))+(h(X)g(X))2]h(X)E[2(Yh(X))(h(X)g(X))]g(X)=h(X)
Martin Van der Linden

5

Notez que pour prouver la réponse, il vous suffit de montrer que

E[2(YE(Y|X))(E(Y|X)g(X))]=0

Quant à savoir quelle attente prendre, vous la prenez conditionnellement, sinon le terme

argming(X)E[(Yg(X))2]

Cela n'a pas de sens, car est une variable aléatoire si est et non . Montrez que vous devez vraiment écrire ou pour que cela soit clair. Maintenant, étant donné cette clarification, le terme est une constante, et peut être tiré en dehors de l'expecation, et vous avez:g(X)EEXYEY|XE[(Yg(X))2|X]EY|X[(Yg(X))2](E(Y|X)g(X))

2(E(Y|X)g(X))E[(YE(Y|X))|X]=2(E(Y|X)g(X))[E(Y|X)E[E(Y|X)|X]]=2(E(Y|X)g(X))[E(Y|X)E(Y|X)]=0

Vous pouvez donc écrire la fonction objectif comme:

EY|X[(Yg(X))2]=EY|X[(YEY|X(Y|X))2]+(EY|X(Y|X)g(X))2

Le minimiseur est évident d'ici. Notez que si vous faites également une moyenne sur , un argument très similaire peut être utilisé pour montrer:X

EX[(E(Y|X)g(X))2]=EX[(EY|X(Y|X)EX[EY|X(Y|X)])2]+(EX[EY|X(Y|X)]EX[g(X)])2

Cela montre que si vous définissez pour chaque , vous disposez également d'un minimiseur sur cette fonction. Donc, dans un certain sens, peu importe que soit ou .g(X)=EY|X(Y|X)XEEYXEY|X


3

Il y a un point de vue mathématique qui est très simple. Ce que vous avez, c'est un problème de projection dans un espace de Hilbert, un peu comme projeter un vecteur dans sur un sous-espace.Rn

Soit l'espace de probabilité sous-jacent. Pour que le problème ait un sens, considérons les variables aléatoires avec des seconds moments finis, c'est-à-dire l'espace de Hilbert . Le problème est maintenant le suivant: étant donné , trouver la projection de sur le sous-espace , où est le -subalgebra de générée par . (Tout comme dans le cas des dimensions finies, minimiser la distance à un sous-espace signifie trouver la projection). La projection souhaitée est(Ω,F,μ)L2(Ω,F,μ)X,YL2(Ω,F,μ)YL2(Ω,FX,μ)FXσFXL2E(X|Y) , par construction. (Cela caractérise en fait , si l'on examine la preuve de l'existence).E(X|Y)


Ceci est une belle réponse.
2015

0

En ce qui concerne votre dernière question, l'attente peut être soit wrt (l'erreur inconditionnelle) ou wrt (l'erreur conditionnelle à chaque valeur ). Heureusement, minimiser l'erreur conditionnelle à chaque valeur minimise également l'erreur inconditionnelle, ce n'est donc pas une distinction cruciale.p(x,y)p(yx)X=xX=x

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.