Le classement privé de Kaggle est-il un bon prédicteur des performances hors échantillon du modèle gagnant?

Bien que les résultats de l'ensemble de test privé ne puissent pas être utilisés pour affiner davantage le modèle, la sélection de modèle parmi un grand nombre de modèles n'est-elle pas effectuée sur la base des résultats de l'ensemble de test privé? Ne seriez-vous pas, grâce à ce seul processus, à sur-équiper l'ensemble de test privé?

Selon «Pseudo-Mathematics and Financial Charlatanism: The Effects of Backtest Overfitting on Out-of-Sample Performance» par Bailey et.al. il est relativement facile de «suréquiper» lors de la sélection du meilleur parmi un grand nombre de modèles évalués sur le même ensemble de données. Cela ne se produit-il pas avec le classement privé de Kaggle?

Quelles sont les justifications statistiques pour les modèles les plus performants dans le classement privé étant les modèles qui généralisent le mieux aux données hors échantillon?
Les entreprises finissent-elles réellement par utiliser les modèles gagnants, ou le classement privé est-il juste là pour fournir les "règles du jeu", et les entreprises sont-elles réellement plus intéressées par les informations qui découlent de la discussion du problème?

model-selection overfitting out-of-sample

— rincer
source

Assez lié: stats.stackexchange.com/q/235591

— Kodiologist

Vous pouvez voir la différence entre les scores privés et publics. On pourrait faire valoir qu'un modèle non surajusté devrait atteindre des performances similaires sur les deux ensembles de données.

— shadowtalker

@shadowtalker Ce serait en effet un bon moyen de détecter le sur-ajustement, mais ce qui nous intéresse réellement, c'est le pouvoir prédictif hors échantillon du modèle, pas le degré de sur-ajustement. Un modèle surajusté - c'est-à-dire qui fonctionne beaucoup mieux dans l'échantillon que hors échantillon - peut avoir de meilleures performances hors échantillon qu'un modèle qui n'est pas surajusté. Je n'ai pas de référence sous la main, mais je pense que c'est souvent le cas dans des domaines complexes, par exemple la vision par ordinateur, lors de l'utilisation de modèles complexes, par exemple les CNN.

— rinspy

Eh bien, les points que vous présentez sont justes, mais je pense qu'il y a un problème beaucoup plus réel avec les gens qui font trop de place dans le classement public .

Cela peut se produire lorsque vous effectuez une centaine de soumissions, l'ensemble de test public finira par saigner sur votre sélection d'hyperparamètre et donc sur-ajuster. Je pense que le classement privé est nécessaire à cet égard.

— M Sef
source