Les compétitions de Kaggle déterminent les classements finaux sur la base d'un ensemble de tests en suspens.
Un ensemble de test retenu est un échantillon; il peut ne pas être représentatif de la population modélisée. Étant donné que chaque soumission est comme une hypothèse, l'algorithme qui a remporté le concours peut, par hasard, avoir fini par correspondre mieux à l'ensemble de test que les autres. En d'autres termes, si un ensemble de tests différent était sélectionné et la compétition répétée, le classement resterait-il le même?
Pour la société commanditaire, cela n'a pas vraiment d'importance (probablement les 20 meilleures soumissions amélioreraient leur niveau de référence). Bien que, ironiquement, ils pourraient finir par utiliser un modèle de premier rang pire que les cinq autres. Mais, pour les participants à la compétition, il semble que Kaggle soit finalement un jeu de hasard - la chance n'est pas nécessaire pour tomber sur la bonne solution, elle doit tomber sur celle qui correspond à l'ensemble de test!
Est-il possible de changer la compétition pour que toutes les meilleures équipes qui ne peuvent pas être statistiquement distinguées gagnent? Ou, dans ce groupe, le modèle le plus parcimonieux ou le moins cher en calcul pourrait-il gagner?