Quelques étapes supplémentaires du biais - Décomposition de la variance
En effet, la dérivation complète est rarement donnée dans les manuels scolaires car elle implique beaucoup d'algèbre sans intérêt. Voici une dérivation plus complète utilisant la notation du livre "Elements of Statistical Learning" à la page 223
Si nous supposons que et et alors nous pouvons dériver l'expression de l'erreur de prédiction attendue d'un ajustement de régression à une entrée utilisant la perte d'erreur au carréY=f(X)+ϵE[ϵ]=0Var(ϵ)=σ2ϵf ( X ) X = x 0f^(X)X=x0
Err(x0)=E[(Y−f^(x0))2|X=x0]
Pour une simplicité de notation, considérons , et rappelons que etf^(x0)=f^f(x0)=fE[f]=fE[Y]=f
E[(Y−f^)2]=E[(Y−f+f−f^)2]=E[(y−f)2]+E[(f−f^)2]+2E[(f−f^)(y−f)]=E[(f+ϵ−f)2]+E[(f−f^)2]+2E[fY−f2−f^Y+f^f]=E[ϵ2]+E[(f−f^)2]+2(f2−f2−fE[f^]+fE[f^])=σ2ϵ+E[(f−f^)2]+0
Pour le terme nous pouvons utiliser une astuce similaire à celle ci-dessus, en ajoutant et en soustrayant pour obtenirE[(f−f^)2]E[f^]
E[(f−f^)2]=E[(f+E[f^]−E[f^]−f^)2]=E[f−E[f^]]2+E[f^−E[f^]]2=[f−E[f^]]2+E[f^−E[f^]]2=Bias2[f^]+Var[f^]
Mettre ensemble
E[(Y−f^)2]=σ2ϵ+Bias2[f^]+Var[f^]
Quelques commentaires sur les raisons pour lesquellesE[f^Y]=fE[f^]
Extrait d'Alecos Papadopoulos ici
Rappelons que est le prédicteur que nous avons construit sur la base des points de données afin que nous puissions écrire pour nous en souvenir.f^m{(x(1),y(1)),...,(x(m),y(m))} f = f mF^= f^m
D'un autre côté, est la prédiction que nous faisons sur un nouveau point de données en utilisant le modèle construit sur les points de données ci-dessus. Ainsi, l'erreur quadratique moyenne peut être écrite commeOui( x( m + 1 ), y( m + 1 ))m
E[ f^m( x( m + 1 )) - y( m + 1 )]2
Développer l'équation de la section précédente
E[ f^mOui] = E[ f^m( f+ ϵ ) ] = E[ f^mF+ f^mϵ ] = E[ f^mF] + E[ f^mϵ ]
La dernière partie de l'équation peut être considérée comme
E[ f^m( x( m + 1 )) ⋅ ϵ( m + 1 )] = 0
Puisque nous faisons les hypothèses suivantes sur le point :X( m + 1 )
- Il n'a pas été utilisé lors de la construction deF^m
- Elle est indépendante de toutes les autres observations{ ( x( 1 ), y( 1 )) , . . . , ( x( m ), y( m )) }
- Il est indépendant deϵ( m + 1 )
Autres sources avec dérivations complètes