Erreur de prédiction attendue - dérivation


20

J'ai du mal à comprendre la dérivation de l'erreur de prédiction attendue ci-dessous (ESL), en particulier sur la dérivation de 2.11 et 2.12 (conditionnement, le pas vers le minimum point par point). Tous les pointeurs ou liens très appréciés.

Ci-dessous, je rapporte l'extrait de ESL pg. 18. Les deux premières équations sont, dans l'ordre, les équations 2.11 et 2.12.


Soit un vecteur d'entrée aléatoire de valeur réelle et une variable de sortie aléatoire de valeur réelle, avec une distribution conjointe . Nous cherchons une fonction pour la prédiction valeurs données de l'entrée . Cette théorie nécessite une fonction de perte pour pénaliser les erreurs de prédiction, et de loin la plus courante et la plus commode est la perte d'erreur au carré : . Cela nous amène à un critère pour choisir ,XRpYRPr(X,Y)f(X)YXL ( Y , f ( X ) ) L(Y,f(X))L(Y,f(X))=(Yf(X))2f

EPE(f)=E(Yf(X))2=[yf(x)]2Pr(dx,dy)

l'erreur de prédiction attendue (au carré). En conditionnant sur , nous pouvons écrire EPE commeX

EPE(f)=EXEY|X([Yf(X)]2|X)

et on voit qu'il suffit de minimiser point par point l'EPE:

f(x)=argmincEY|X([Yc]2|X)

La solution est

f(x)=E(Y|X=x)

l'espérance conditionnelle, également connue sous le nom de fonction de régression .


L'échange de et dans la première équation de l'article de Wikipedia sur la loi de l'attente totale donne l'équivalence de (2.9) et (2.11). Lisez cet article pour les preuves. (2.12) est immédiat, étant entendu que doit être choisi afin de minimiser l'EPE. Y fXYf
whuber

3
Note latérale: Ceci est tiré des éléments de l'apprentissage statistique
Zhubarb

2
Pour ceux qui lisent également ce livre, consultez ces notes complètes de Weathermax et Epstein
Dodgie

@Dodgie Ce lien est mort: (
Matthew Drury

2
@MatthewDrury Heureusement un googler des « statistiques WEATHERMAX et Epstein » a renvoyé un lien comme le premier résultat;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/...
Dodgie

Réponses:


16

EPE(f)=[yf(x)]2Pr(dx,dy)=[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x,y)dxdy=xy[yf(x)]2p(x)p(y|x)dxdy=x(y[yf(x)]2p(y|x)dy)p(x)dx=x(EY|X([Yf(X)]2|X=x))p(x)dx=EXEY|X([Yf(X)]2|X=x)

3
Je comprends ce que vous avez écrit, mais pensez-vous que si le PO a été dérouté par la dérivation montrée dans la question, il / elle comprendra votre réponse? bien sûr, j'ai déjà compris la dérivation montrée dans la question.
Mark L. Stone

Je suis arrivé de Google avec la même question et je trouve que cette dérivation est exactement ce dont j'avais besoin.
points

1
@ MarkL.Stone - cela pourrait être une question stupide, mais pourriez-vous expliquer ce que l'on entend par et comment cela devient p ( x , y ) d x d y ? Merci beaucoupPr(dx,dy)p(x,y)dxdy
Xavier Bourret Sicotte

1
Ce que l'on entend par le premier est le second. Je pense qu'il est plus courant d'utiliser à la place dP (x, y) ou dF (x, y). Dans 1D, vous verrez souvent dF (x) pour signifier f (x) dx, où f (x) est la fonction de densité de probabilité, mais la notation peut également permettre une fonction de masse de probabilité discrète (en somme) ou même un mélange de densité continue et masse de probabilité discrète.
Mark L. Stone

Ne serait-il pas plus précis de dire (dernière formule) ? EX(EY|X([Yf(X)]2|X=x))
D1X

11

L'équation (2.11) est une conséquence de la petite égalité suivante. Pour deux variables aléatoires quelconques et Z 2 et toute fonction gZ1Z2g

EZ1,Z2(g(Z1,Z2))=EZ2(EZ1Z2(g(Z1,Z2)Z2))

La notation est l'espérance sur la distribution conjointe . La notation E Z 1Z 2 dit essentiellement "intégrer sur la distribution conditionnelle de Z 1 comme si Z 2 était fixe".EZ1,Z2EZ1Z2Z1Z2

Il est facile de vérifier cela dans le cas où et Z 2 sont des variables aléatoires discrètes en déroulant simplement les définitions impliquéesZ1Z2

EZ2(EZ1Z2(g(Z1,Z2)Z2))=EZ2(z1g(z1,Z2)Pr(Z1=z1Z2))=z2(z1g(z1,z2)Pr(Z1=z1Z2=z2))Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1Z2=z2)Pr(Z2=z2)=z1,z2g(z1,z2)Pr(Z1=z1,Z2=z2)=EZ1,Z2(g(Z1,Z2))

Le cas continu peut être considéré de manière informelle comme une limite de cet argument, ou vérifié formellement une fois que tous les papas théoriques de mesure sont en place.

Z1=YZ2=Xg(x,y)=(yf(x))2

L'assertion (2.12) nous demande d'envisager de minimiser

EXEYX(Yf(X))2

f

x(y(yf(x))2Pr(Y=yX=x))Pr(X=x)

f

y(yf(x))2Pr(Y=yX=x)

x


8

Je trouve certaines parties de ce livre exprimées d'une manière difficile à comprendre, surtout pour ceux qui n'ont pas une solide formation en statistique.

Je vais essayer de faire simple et j'espère que vous pourrez vous débarrasser de la confusion.

E(X)=E(E(X|Y)),X,Y

E(E(X|Y))=E(X|Y=y)fY(y)dy=xfX|Y(x|y)dxfY(y)dy=xfX|Y(x|y)fY(y)dxdy=xfXY(x,y)dxdy=x(fXY(x,y)dy)dx=xfX(x)dx=E(X)

E(Yf(X))2E(YE(Y|X))2,f

E((Oui-F(X))2|X)=E(([Oui-E(Oui|X)]+[E(Oui|X)-F(X)])2|X)=E((Oui-E(Oui|X))2|X)+E((E(Oui|X)-F(X))2|X)+2E((Oui-E(Oui|X))(E(Oui|X)-F(X))|X)=E((Oui-E(Oui|X))2|X)+E((E(Oui|X)-F(X))2|X)+2(E(Oui|X)-F(X))E(Oui-E(Oui|X))|X)( puisque E(Oui|X)-F(X) est constant étant donné X)=E((Oui-E(Oui|X))2|X)+E((E(Oui|X)-F(X))2|X) (utilisez la revendication 1 )E((Oui-E(Oui|X))2|X)

En prenant des attentes des deux côtés de l'équation ci-dessus, on obtient la revendication 2 (QED)

F(X)=E(Oui|X)

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.