Erreur de prédiction attendue - dérivation

J'ai du mal à comprendre la dérivation de l'erreur de prédiction attendue ci-dessous (ESL), en particulier sur la dérivation de 2.11 et 2.12 (conditionnement, le pas vers le minimum point par point). Tous les pointeurs ou liens très appréciés.

Ci-dessous, je rapporte l'extrait de ESL pg. 18. Les deux premières équations sont, dans l'ordre, les équations 2.11 et 2.12.

Soit un vecteur d'entrée aléatoire de valeur réelle et une variable de sortie aléatoire de valeur réelle, avec une distribution conjointe . Nous cherchons une fonction pour la prédiction valeurs données de l'entrée . Cette théorie nécessite une fonction de perte pour pénaliser les erreurs de prédiction, et de loin la plus courante et la plus commode est la perte d'erreur au carré : . Cela nous amène à un critère pour choisir , $X \in \mathbb{R}^p$ $Y \in \mathbb{R}$ $\text{Pr}(X,Y)$ $f(X)$ $Y$ $X$ $L(Y,f(X))$ $L(Y,f(X))=(Y-f(X))^2$ $f$

\begin{aligned} EPE (f) & = E (Y - f (X))^{2} \\ = \int [y - f (x)]^{2} Pr (d x, d y) \end{aligned}

$\begin{split} \text{EPE}(f) &= \text{E}(Y - f(X))^2\\ & = \int [y - f(x)]^2 \text{Pr}(dx, dy) \end{split}$

l'erreur de prédiction attendue (au carré). En conditionnant sur , nous pouvons écrire EPE comme $X$

EPE (f) = E_{X} E_{Y | X} ([Y - f (X)]^{2} | X)

$\text{EPE}(f) = \text{E}_X \text{E}_{Y|X}([Y-f(X)]^2|X)$

et on voit qu'il suffit de minimiser point par point l'EPE:

f (x) = {argmin}_{c} E_{Y | X} ([Y - c]^{2} | X)

$f(x) = \text{argmin}_c \text{E}_{Y|X}([Y-c]^2|X)$

La solution est

f (x) = E (Y | X = x)

$f(x) = \text{E}(Y|X=x)$

l'espérance conditionnelle, également connue sous le nom de fonction de régression .

regression prediction error

— user1885116
source

L'échange de et dans la première équation de l'article de Wikipedia sur la loi de l'attente totale donne l'équivalence de (2.9) et (2.11). Lisez cet article pour les preuves. (2.12) est immédiat, étant entendu que doit être choisi afin de minimiser l'EPE.

X

$X$

Y

$Y$

f

$f$

— whuber

Note latérale: Ceci est tiré des éléments de l'apprentissage statistique

— Zhubarb

Pour ceux qui lisent également ce livre, consultez ces notes complètes de Weathermax et Epstein

— Dodgie

@Dodgie Ce lien est mort: (

— Matthew Drury

@MatthewDrury Heureusement un googler des « statistiques WEATHERMAX et Epstein » a renvoyé un lien comme le premier résultat;) - waxworksmath.com/Authors/G_M/Hastie/WriteUp/...

— Dodgie

Réponses:

\begin{aligned} E P E (f) & = \int [y - f (x)]^{2} P r (d x, d y) \\ = \int [y - f (x)]^{2} p (x, y) d x d y \\ = \int_{x} \int_{y} [y - f (x)]^{2} p (x, y) d x d y \\ = \int_{x} \int_{y} [y - f (x)]^{2} p (x) p (y | x) d x d y \\ = \int_{x} (\int_{y} [y - f (x)]^{2} p (y | x) d y) p (x) d x \\ = \int_{x} (E_{Y | X} ([Y - f (X)]^{2} | X = x)) p (x) d x \\ = E_{X} E_{Y | X} ([Y - f (X)]^{2} | X = x) \end{aligned}

$\begin{align*} EPE(f) &= \int [y - f(x)]^2 Pr(dx, dy) \\ &= \int [y - f(x)]^2p(x,y)dxdy \\ &= \int_x \int_y [y - f(x)]^2p(x,y)dxdy \\ &= \int_x \int_y [y - f(x)]^2p(x)p(y|x)dxdy \\ &= \int_x\left( \int_y [y - f(x)]^2p(y|x)dy \right)p(x)dx \\ &= \int_x \left( E_{Y|X}([Y - f(X)]^2|X = x) \right) p(x)dx\\ &= E_{X}E_{Y|X}([Y - f(X)]^2| X = x) \end{align*}$

— user48002
source

Je comprends ce que vous avez écrit, mais pensez-vous que si le PO a été dérouté par la dérivation montrée dans la question, il / elle comprendra votre réponse? bien sûr, j'ai déjà compris la dérivation montrée dans la question.

— Mark L. Stone

Je suis arrivé de Google avec la même question et je trouve que cette dérivation est exactement ce dont j'avais besoin.

— points

@ MarkL.Stone - cela pourrait être une question stupide, mais pourriez-vous expliquer ce que l'on entend par

et comment cela devient

? Merci beaucoup

P r (d x, d y)

$Pr(dx,dy)$

p (x, y) d x d y

$p(x,y)dxdy$

— Xavier Bourret Sicotte

Ce que l'on entend par le premier est le second. Je pense qu'il est plus courant d'utiliser à la place dP (x, y) ou dF (x, y). Dans 1D, vous verrez souvent dF (x) pour signifier f (x) dx, où f (x) est la fonction de densité de probabilité, mais la notation peut également permettre une fonction de masse de probabilité discrète (en somme) ou même un mélange de densité continue et masse de probabilité discrète.

— Mark L. Stone

Ne serait-il pas plus précis de dire (dernière formule)

E_{X} (E_{Y | X} ([Y - f (X)]^{2} | X = x))

$E_{X}(E_{Y|X}([Y - f(X)]^2| X = x))$

— D1X

L'équation (2.11) est une conséquence de la petite égalité suivante. Pour deux variables aléatoires quelconques et et toute fonction $Z_1$ $Z_2$ $g$

E_{Z_{1}, Z_{2}} (g (Z_{1}, Z_{2})) = E_{Z_{2}} (E_{Z_{1} ∣ Z_{2}} (g (Z_{1}, Z_{2}) ∣ Z_{2}))

$E_{Z_1, Z_2} (g(Z_1, Z_2)) = E_{Z_2}(E_{Z_1 \mid Z_2}(g(Z_1, Z_2) \mid Z_2))$

La notation est l'espérance sur la distribution conjointe . La notation dit essentiellement "intégrer sur la distribution conditionnelle de comme si était fixe". $E_{Z_1, Z_2}$ $E_{Z_1 \mid Z_2}$ $Z_1$ $Z_2$

Il est facile de vérifier cela dans le cas où et sont des variables aléatoires discrètes en déroulant simplement les définitions impliquées $Z_1$ $Z_2$

\begin{aligned} E_{Z_{2}} & (E_{Z_{1} ∣ Z_{2}} (g (Z_{1}, Z_{2}) ∣ Z_{2})) \\ = E_{Z_{2}} (\sum_{z_{1}} g (z_{1}, Z_{2}) P r (Z_{1} = z_{1} ∣ Z_{2})) \\ = \sum_{z_{2}} (\sum_{z_{1}} g (z_{1}, z_{2}) P r (Z_{1} = z_{1} ∣ Z_{2} = z_{2})) P r (Z_{2} = z_{2}) \\ = \sum_{z_{1}, z_{2}} g (z_{1}, z_{2}) P r (Z_{1} = z_{1} ∣ Z_{2} = z_{2}) P r (Z_{2} = z_{2}) \\ = \sum_{z_{1}, z_{2}} g (z_{1}, z_{2}) P r (Z_{1} = z_{1}, Z_{2} = z_{2}) \\ = E_{Z_{1}, Z_{2}} (g (Z_{1}, Z_{2})) \end{aligned}

$\begin{align} E_{Z_2} & (E_{Z_1 \mid Z_2}(g(Z_1, Z_2) \mid Z_2)) \\ &= E_{Z_2} \left( \sum_{z_1} g(z_1, Z_2) Pr(Z_1 = z_1 \mid Z_2 ) \right) \\ &= \sum_{z_2} \left( \sum_{z_1} g(z_1, z_2) Pr(Z_1 = z_1 \mid Z_2 = z_2 ) \right) Pr(Z_2 = z_2) \\ &= \sum_{z_1, z_2} g(z_1, z_2) Pr(Z_1 = z_1 \mid Z_2 = z_2) Pr(Z_2 = z_2) \\ &= \sum_{z_1, z_2} g(z_1, z_2) Pr(Z_1 = z_1, Z_2 = z_2 ) \\ &= E_{Z_1, Z_2} (g(Z_1, Z_2)) \end{align}$

Le cas continu peut être considéré de manière informelle comme une limite de cet argument, ou vérifié formellement une fois que tous les papas théoriques de mesure sont en place.

$Z_1 = Y$ $Z_2 = X$ $g(x, y) = (y - f(x))^2$

L'assertion (2.12) nous demande d'envisager de minimiser

E_{X} E_{Y ∣ X} (Y - f (X))^{2}

$E_X E_{Y \mid X} (Y - f(X))^2$

$f$

\sum_{x} (\sum_{y} (y - f (x))^{2} P r (Y = y ∣ X = x)) P r (X = x)

$\sum_{x} \left( \sum_{y} (y - f(x))^2 Pr(Y = y \mid X = x) \right) Pr(X = x)$

$f$

\sum_{y} (y - f (x))^{2} P r (Y = y ∣ X = x)

$\sum_{y} (y - f(x))^2 Pr(Y = y \mid X = x)$

$x$

— Matthew Drury
source

Je trouve certaines parties de ce livre exprimées d'une manière difficile à comprendre, surtout pour ceux qui n'ont pas une solide formation en statistique.

Je vais essayer de faire simple et j'espère que vous pourrez vous débarrasser de la confusion.

$E(X) = E(E(X|Y)),\forall X,Y$

\begin{aligned} E (E (X | Y)) & = \int E (X | Y = y) f_{Y} (y) d y \\ = \int \int x f_{X | Y} (x | y) d x f_{Y} (y) d y \\ = \int \int x f_{X | Y} (x | y) f_{Y} (y) d x d y \\ = \int \int x f_{X Y} (x, y) d x d y \\ = \int x (\int f_{X Y} (x, y) d y) d x \\ = \int x f_{X} (x) d x = E (X) \end{aligned}

$\begin{align} E(E(X|Y)) &= \displaystyle\int E(X|Y=y) f_Y(y) dy \\ &= \int \int x f_{X|Y} (x|y) dx f_Y(y) dy \\ &= \int \int x f_{X|Y} (x|y) f_Y(y) dx dy \\ &= \int \int x f_{XY} (x,y) dx dy \\ &= \int x \left(\int f_{XY} (x,y) dy \right) dx \\ &= \int x f_X(x) dx = E(X) \end{align}$

$E(Y - f(X))^2 \geq E(Y - E(Y|X))^2, \forall f$

\begin{aligned} E ((Oui - F (X))^{2} | X) & = E (([Oui - E (Oui | X)] + [E (Oui | X) - F (X)])^{2} | X) \\ = E ((Oui - E (Oui | X))^{2} | X) + E ((E (Oui | X) - F (X))^{2} | X) + \\ 2 E ((Oui - E (Oui | X)) (E (Oui | X) - F (X)) | X) \\ = E ((Oui - E (Oui | X))^{2} | X) + E ((E (Oui | X) - F (X))^{2} | X) + \\ 2 (E (Oui | X) - F (X)) E (Oui - E (Oui | X)) | X) \\ (puisque E (Oui | X) - F (X) est constant étant donné X) \\ = E ((Oui - E (Oui | X))^{2} | X) + E ((E (Oui | X) - F (X))^{2} | X) (utilisez la revendication 1) \\ \geq E ((Oui - E (Oui | X))^{2} | X) \end{aligned}

$\begin{align} E((Y - f(X))^2 | X) &= E( ([Y - E(Y|X)] + [E(Y|X) - f(X)])^2|X) \\ &= E((Y-E(Y|X))^2 |X) + E((E(Y|X) - f(X))^2|X) + \\ &\qquad 2 E((Y - E(Y|X))(E(Y|X) - f(X))|X) \\ &=E((Y-E(Y|X))^2 |X) + E((E(Y|X) - f(X))^2|X) + \\ &\qquad 2 (E(Y|X) - f(X)) E(Y - E(Y|X))|X) \\[5pt] &( \text{ since } E(Y|X) - f(X) \text{ is constant given } X) \\[5pt] &= E((Y-E(Y|X))^2 |X) + E((E(Y|X) - f(X))^2|X) \text{ ( use Claim 1 }) \\ &\geq E((Y-E(Y|X))^2 |X) \end{align}$

En prenant des attentes des deux côtés de l'équation ci-dessus, on obtient la revendication 2 (QED)

$f(X) = E(Y|X)$

— thanhtang
source