Pour un sur-ajustement dans la sélection du modèle, un papier à lire est
C. Ambroise et GJ McLachlan, «Biais de sélection dans l'extraction de gènes sur la base de données d'expression génique de puces à ADN», PNAS, vol. 99 non. 10 6562-6566, mai 2002. http://dx.doi.org/10.1073/pnas.102102699
Pour une discussion du même type de problème qui se pose dans la sélection de modèle, voir
GC Cawley, NLC Talbot, «On Over-fit in Model Selection and Subsequent Selection Bias in Performance Evaluation», Journal of Machine Learning Research, 11 (juil): 2079−2107, 2010. http://jmlr.csail.mit. edu / papers / v11 / cawley10a.html
La façon de résoudre le problème de la dégradation de l'ensemble de validation consiste à utiliser la validation croisée imbriquée, de sorte que la méthode utilisée pour faire des choix concernant le modèle est effectuée indépendamment dans chaque pli de la validation croisée utilisée pour l'estimation des performances. L'estimation des performances doit essentiellement estimer les performances de l'ensemble de la procédure d'ajustement du modèle (ajustement du modèle, sélection des fonctionnalités, sélection du modèle, tout).
L'autre approche consiste à être bayésien. Le risque de sur-ajustement est introduit chaque fois que vous optimisez un critère basé sur un échantillon fini de données, donc si vous marginalisez (intégrez) plutôt que d'optimiser, un sur-ajustement classique est impossible. Vous avez cependant le problème de spécifier les prieurs.