Lors de l'utilisation du bootstrap pour l'évaluation de modèles, j'ai toujours pensé que les échantillons hors sac étaient directement utilisés comme ensemble de test. Cependant, cela ne semble pas être le cas pour l' approche obsolète de scikit-learnBootstrap
, qui semble construire l'ensemble de test à partir d'un dessin avec remplacement du sous-ensemble de données hors sac. Quel est le raisonnement statistique derrière cela? Y a-t-il des scénarios spécifiques où cette technique est meilleure que l'évaluation sur l'échantillon hors sac ou vice versa?