En lisant le site, la plupart des réponses suggèrent que la validation croisée devrait être effectuée dans les algorithmes d'apprentissage automatique. Cependant, alors que je lisais le livre "Understanding Machine Learning", j'ai vu qu'il y avait un exercice selon lequel il vaut parfois mieux ne pas utiliser la validation croisée. Je suis vraiment confus. Quand l'algorithme de formation sur l'ensemble des données est meilleur que la validation croisée? Cela se produit-il dans de vrais ensembles de données?
Soit k classes d'hypothèses. Supposons que l'on vous donne des exemples de formation iid et que vous souhaitez apprendre la classe . Considérez deux approches alternatives:
Apprenez sur les exemples en utilisant la règle ERM
Divisez les m exemples en un ensemble d'apprentissage de taille et un ensemble de validation de taille , pour certains . Ensuite, appliquez l'approche de la sélection du modèle à l'aide de la validation. Autrement dit, entraînez d'abord chaque classe sur les exemples d'apprentissage à l'aide de la règle ERM par rapport à , et laissez être les hypothèses résultantes . Ensuite, appliquez la règle ERM en ce qui concerne la classe finie { } sur les exemples de validation .
Décrivez des scénarios dans lesquels la première méthode est meilleure que la seconde et vice versa.