Confus par la dérivation de la fonction de régression

Je viens de recevoir une copie des éléments de l'apprentissage statistique par Hastie, Tibshirani et Friedman. Dans le chapitre 2 (Aperçu de l'apprentissage supervisé), section 4 (Théorie de la décision statistique), il donne une dérivation de la fonction de régression.

Soit un vecteur d'entrée aléatoire de valeur réelle et une variable de sortie aléatoire de valeur réelle, avec une distribution conjointe . Nous cherchons une fonction pour la prédiction valeurs données de l'entrée . Cette théorie nécessite une fonction de perte pour pénaliser les erreurs de prédiction, et de loin la plus courante et la plus commode est la perte d'erreur au carré: . Cela nous amène à un critère pour choisir , $X \in \mathbb{R}^p$ $Y\in\mathbb{R}$ $Pr(X,Y)$ $f(X)$ $Y$ $X$ $L(Y,f(X))$ $L(Y,f(X))=(Y −f(X))^2$ $f$

$\begin{aligned} E P E (f) & = E (Y - f (X))^{2} \\ = \int [y - f (x)]^{2} P r (d x, d y) \end{aligned}$ $\begin{align*} EPE(f) &= E(Y-f(X))^2 \\ &= \int [y - f(x)]^2Pr(dx, dy)\end{align*}$ l'attendu (carré) erreur de prédiction.

Je comprends parfaitement le montage et la motivation. Ma première confusion est: veut-il dire ou ? Deuxièmement, je n'ai jamais vu la notation . Est-ce que quelqu'un qui m'a expliqué sa signification? Est-ce juste que ? Hélas ma confusion ne s'arrête pas là, $E[(Y - f(x))]^2$ $E[(Y - f(x))^2]$ $Pr(dx,dy)$ $Pr(dx) = Pr(x)dx$

En conditionnant sur , nous pouvons écrire comme $X$ $EPE$
$\begin{aligned} E P E (f) = E_{X} E_{Y | X} ([Y - f (X)]^{2} | X) \end{aligned}$ $\begin{align*}EPE(f) = E_XE_{Y|X}([Y-f(X)]^2|X)\end{align*}$

Il me manque le lien entre ces deux étapes, et je ne connais pas la définition technique du "conditionnement". Faites-moi savoir si je peux clarifier quoi que ce soit! Je pense que la plus grande partie de ma confusion est due à une notation inconnue; Je suis convaincu que si quelqu'un peut décomposer cette dérivation en anglais simple, je l'obtiendrai. Merci stats.SE!

regression statistical-learning

— Orangutango
source

Pour votre première confusion, il faut s'attendre à une erreur quadratique, c'est donc $E[(Y-f(x))^2].$

Pour la notation de , elle est égale à , où est le pdf conjoint de x et y. Et , cela peut être interprété comme la probabilité que x soit dans un petit intervalle de est égal à la valeur pdf au point , c'est-à-dire fois la longueur d'intervalle . $Pr(dx,dy)$ $g(x,y)\,dx\,dy$ $g(x,y)$ $Pr(dx)=f(x)\,dx$ $[x,x+dx]$ $x$ $f(x)$ $dx$

L'équation de l'EPE provient du théorème pour deux variables aléatoires et . Vous pouvez le prouver en utilisant la distribution conditionnelle. L'espérance conditionnelle est l'espérance calculée à l'aide de la distribution conditionnelle. La distribution conditionnelle signifie que la probabilité de après que vous savez quelque chose sur . $E(E(Y|X))=E(Y)$ $X$ $Y$ $Y|X$ $Y$ $X$

Dans notre cas, supposons que nous désignons l'erreur quadratique comme une fonction , l'EPE calcule $L(x,y)=(y-f(x))^2$

\begin{aligned} E (L (x, y)) & = \int \int L (x, y) g (x, y) d x d y \\ = \int [\int L (x, y) g (y | x) g (x) d y] d x \\ = \int [\int L (x, y) g (y | x) d y] g (x) d x \\ = \int [E_{Y | X} (L (x, y)] g (x) d x \\ = E_{X} (E_{Y | X} (L (x, y))) \end{aligned}

$\begin{equation}\begin{split}E(L(x,y))&=\int\int L(x,y)g(x,y)dx\,dy \\ &=\int\bigg[\int L(x,y)g(y|x)g(x)dy\bigg]dx \\ &=\int\bigg[\int L(x,y)g(y|x)dy\bigg]g(x)dx \\ &=\int\bigg[E_{Y|X} (L(x,y)\bigg]g(x)dx \\ &=E_X(E_{Y|X} (L(x,y)))\end{split}\end{equation}$

Le résultat ci-dessus correspond au résultat que vous avez indiqué. J'espère que cela peut vous aider un peu.

— Jerry
source

Pour le résultat final après conditionnement, le livre a également le | X, tandis que le résultat final de cette réponse le manque. Est-ce important?

— robertmartin8