J'ai du mal à comprendre la dérivation de l'erreur de prédiction attendue ci-dessous (ESL), en particulier sur la dérivation de 2.11 et 2.12 (conditionnement, le pas vers le minimum point par point). Tous les pointeurs ou liens très appréciés.
Ci-dessous, je rapporte l'extrait de ESL pg. 18. Les deux premières équations sont, dans l'ordre, les équations 2.11 et 2.12.
Soit un vecteur d'entrée aléatoire de valeur réelle et une variable de sortie aléatoire de valeur réelle, avec une distribution conjointe . Nous cherchons une fonction pour la prédiction valeurs données de l'entrée . Cette théorie nécessite une fonction de perte pour pénaliser les erreurs de prédiction, et de loin la plus courante et la plus commode est la perte d'erreur au carré : . Cela nous amène à un critère pour choisir ,L ( Y , f ( X ) )
l'erreur de prédiction attendue (au carré). En conditionnant sur , nous pouvons écrire EPE comme
et on voit qu'il suffit de minimiser point par point l'EPE:
La solution est
l'espérance conditionnelle, également connue sous le nom de fonction de régression .