Je sais que pour accéder aux performances du classificateur, je dois diviser les données en ensemble de formation / test. Mais en lisant ceci :
Lors de l'évaluation de différents paramètres («hyperparamètres») pour les estimateurs, tels que le paramètre C qui doit être défini manuellement pour un SVM, il existe toujours un risque de sur-ajustement sur l'ensemble de test car les paramètres peuvent être modifiés jusqu'à ce que l'estimateur fonctionne de manière optimale. De cette façon, les connaissances sur l'ensemble de tests peuvent «s'infiltrer» dans le modèle et les mesures d'évaluation ne rendent plus compte des performances de généralisation. Pour résoudre ce problème, une autre partie de l'ensemble de données peut être présentée comme un soi-disant «ensemble de validation»: la formation se poursuit sur l'ensemble d'apprentissage, après quoi l'évaluation est effectuée sur l'ensemble de validation, et lorsque l'expérience semble réussir , l'évaluation finale peut être effectuée sur l'ensemble de test.
Je vois qu'un autre (troisième) ensemble de validation est introduit, ce qui est justifié par un sur-ajustement de l'ensemble de test lors du réglage des hyperparamètres.
Le problème est que je ne peux pas comprendre comment ce sur-ajustement peut apparaître et ne peut donc pas comprendre la justification du troisième set.