J'ai déjà entendu l'expression suivante:
"L'optimisation est la racine de tout mal dans les statistiques".
Par exemple, la première réponse dans ce fil fait cette déclaration en référence au danger d'optimiser trop agressivement lors de la sélection du modèle.
Ma première question est la suivante: cette citation est-elle attribuable à quelqu'un en particulier? (par exemple dans la littérature statistique)
D'après ce que je comprends, la déclaration fait référence aux risques de sur-ajustement. La sagesse traditionnelle dirait qu'une validation croisée appropriée lutte déjà contre ce problème, mais il semble qu'il y ait plus à ce problème que cela.
Les statisticiens et les praticiens du ML devraient-ils se méfier de la sur-optimisation de leurs modèles même lorsqu'ils adhèrent à des protocoles de validation croisée stricts (par exemple 100 CV imbriqués 10 fois)? Dans l'affirmative, comment savoir quand arrêter de rechercher «le meilleur» modèle?