Disons que j'ai deux méthodes d'apprentissage pour un problème de classification , et , et que j'évalue leurs performances de généralisation avec quelque chose comme la validation croisée répétée ou le bootstrap. De ce processus, j'obtiens une distribution des scores et pour chaque méthode à travers ces répétitions (par exemple la distribution des valeurs ROC AUC pour chaque modèle).
En regardant ces distributions, il se pourrait que mais que (c'est-à-dire que les performances de généralisation attendues de soient supérieures à , mais qu'il y ait plus d'incertitude sur cette estimation).
Je pense que cela s'appelle le dilemme biais-variance dans la régression.
Quelles méthodes mathématiques puis-je utiliser pour comparer et et éventuellement prendre une décision éclairée sur le modèle à utiliser?
Remarque: Par souci de simplicité, je me réfère ici à deux méthodes et , mais je m'intéresse aux méthodes qui peuvent être utilisées pour comparer la distribution des scores de ~ 1000 méthodes d'apprentissage (par exemple à partir d'une recherche sur la grille) et éventuellement faire une décision finale sur le modèle à utiliser.