Récemment, je suis tombé sur un article qui propose d'utiliser un classificateur k-NN sur un ensemble de données spécifique. Les auteurs ont utilisé tous les échantillons de données disponibles pour effectuer une validation croisée k-fold pour différentes valeurs k et rapporter les résultats de la validation croisée de la meilleure configuration hyperparamétrique.
À ma connaissance, ce résultat est biaisé et ils auraient dû conserver un ensemble de tests séparé pour obtenir une estimation de précision sur les échantillons non utilisés pour effectuer une optimisation hyperparamétrique.
Ai-je raison? Pouvez-vous fournir quelques références (de préférence des documents de recherche) qui décrivent cette utilisation abusive de la validation croisée?