Ma question porte sur le classificateur du plus proche voisin et concerne une déclaration faite dans l'excellent livre The Elements of Statistical Learning, par Hastie, Tibshirani et Friedman. La déclaration est (p. 465, section 13.3):
"Parce qu'il utilise uniquement le point d'apprentissage le plus proche du point d'interrogation, le biais de l'estimation du voisin le plus proche est souvent faible, mais la variance est élevée."
Le livre est disponible à
http://www-stat.stanford.edu/~tibs/ElemStatLearn/download.html
Pour commencer, nous pouvons définir ce que sont le biais et la variance. De la question "comment-peut-augmenter-la-dimension-augmenter-la-variance-sans-augmenter-le-bi" , nous avons ceci:
"Tout d'abord, le biais d'un classificateur est l'écart entre sa fonction estimée et vraie moyenne, tandis que la variance d'un classificateur est la divergence attendue de la fonction de prédiction estimée par rapport à sa valeur moyenne (c'est-à-dire à quel point le classificateur dépend du hasard échantillonnage effectué dans le kit de formation).
Par conséquent, la présence de biais indique quelque chose de fondamentalement erroné avec le modèle, alors que la variance est également mauvaise, mais un modèle avec une variance élevée pourrait au moins bien prédire en moyenne. "
Quelqu'un pourrait-il expliquer pourquoi la variance est élevée et le biais est faible pour le classificateur du plus proche voisin?