(Il s'agit d'une adaptation de Granger et Newbold (1986) "Forecasting Economic Time Series").
Par construction, votre fonction de coût d'erreur est . Ceci incorpore une hypothèse critique (que la fonction de coût d'erreur est symétrique autour de zéro) - une fonction de coût d'erreur différente n'aurait pas nécessairement la valeur attendue conditionnelle comme de sa valeur attendue. Vous ne pouvez pas minimiser votre fonction de coût d'erreur car elle contient des quantités inconnues. Vous décidez donc de minimiser sa valeur attendue à la place. Ensuite, votre fonction objective devient argmin[ Oui- g( X) ]2argmin
E[ Oui- g( X) ]2= ∫∞- ∞[ y- g( X) ]2fY|X(y|x)dy
qui, je crois, répond également à votre deuxième question. Il est intuitif que la valeur attendue sera de conditionnelle à , puisque nous essayons d'estimer / prévision basée sur . Décomposer le carré pour obtenirX Y XYXYX
E[Y−g(X)]2=∫∞−∞y2fY|X(y|x)dy−2g(X)∫∞−∞yfY|X(y|x)dy+[g(X)]2∫∞−∞fY|X(y|x)dy
Le premier terme ne contient pas donc il n'affecte pas la minimisation et il peut être ignoré. L'intégrale dans le deuxième terme est égale à la valeur attendue conditionnelle de étant donné , et l'intégrale dans le dernier terme est égale à l'unité. DoncY Xg(X)YX
argming(x)E[Y−g(X)]2=argming(x){−2g(X)E(Y∣X)+[g(X)]2}
La dérivée première wrt est conduisant à la condition de premier ordre pour la minimisation tandis que la dérivée seconde est égale à ce qui est suffisant pour un minimum.- 2 E ( Y ∣ X ) + 2 g ( X ) g ( X ) = E ( Y ∣ X ) 2 > 0g(X)−2E(Y∣X)+2g(X)g(X)=E(Y∣X)2>0
ADDENDUM: La logique de l'approche de preuve "ajouter et soustraire".
Le PO est intrigué par l'approche énoncée dans la question, car elle semble tautologique. Ce n'est pas le cas, car en utilisant la tactique d'addition et de soustraction, une partie spécifique de la fonction objectif est nulle pour un choix arbitraire du terme qui est ajouté et soustrait, il n'égale PAS la fonction de valeur , à savoir la valeur de l'objectif fonction évaluée au minimiseur candidat.
Pour le choix nous avons la fonction de valeur
Pour le choix arbitraire nous avons la fonction funtion .V ( E ( Y ∣ X ) ) = E [ ( Y - E ( Y ∣ X ) ) 2 ∣ X ] g ( X ) = h ( X ) V ( h ( X ) ) = E [ ( Y - h (g(X)=E(Y∣X)V(E(Y∣X))=E[(Y- E( O∣ X) )2∣ X]g( X) = h ( X)V( h ( X) ) = E[ ( O- h ( X) )2∣ X]
Je prétends que
⇒ E ( Y 2 ∣ X ) - 2 E [ ( Y E ( Y ∣ X ) ) ∣ X ] + E [ ( E ( Y ∣ X ) ) 2 ∣ X ]
V( E( O∣ X) ) ≤ V( h ( X) )
⇒ E( O2∣ X) - 2 E[ ( OE( O∣ X) ) ∣ X] +E[ (E( O∣ X) )2∣ X]≤ E( O2∣ X) - 2 E[ ( Oh ( X) ) ∣ X] +E[ (h(X) )2∣ X]
Le premier terme du LHS et du RHS s'annule. A noter également que l'attente extérieure est conditionnelle à . Par les propriétés des attentes conditionnelles, nous nous retrouvons avecX
...⇒−2E(Y∣X)⋅E(Y∣X)+[E(Y∣X)]2≤−2E(Y∣X)h(X)+[h(X)]2
⇒0≤[E(Y∣X)]2−2E(Y∣X)h(X)+[h(X)]2
h ( x ) ≠ E ( Y ∣ X ) E ( Y ∣ X )
⇒0≤[E(Y∣X)−h(x)]2
qui tient avec une inégalité stricte si . Donc est le minimiseur global et unique.
h(x)≠E(Y∣X)E(Y∣X)
Mais cela indique également que l'approche «ajouter et soustraire» n'est pas le moyen de preuve le plus éclairant ici.