Bien que les résultats de l'ensemble de test privé ne puissent pas être utilisés pour affiner davantage le modèle, la sélection de modèle parmi un grand nombre de modèles n'est-elle pas effectuée sur la base des résultats de l'ensemble de test privé? Ne seriez-vous pas, grâce à ce seul processus, à sur-équiper l'ensemble de test privé?
Selon «Pseudo-Mathematics and Financial Charlatanism: The Effects of Backtest Overfitting on Out-of-Sample Performance» par Bailey et.al. il est relativement facile de «suréquiper» lors de la sélection du meilleur parmi un grand nombre de modèles évalués sur le même ensemble de données. Cela ne se produit-il pas avec le classement privé de Kaggle?
- Quelles sont les justifications statistiques pour les modèles les plus performants dans le classement privé étant les modèles qui généralisent le mieux aux données hors échantillon?
- Les entreprises finissent-elles réellement par utiliser les modèles gagnants, ou le classement privé est-il juste là pour fournir les "règles du jeu", et les entreprises sont-elles réellement plus intéressées par les informations qui découlent de la discussion du problème?