Dans certaines conférences et tutoriels que j'ai vus, ils suggèrent de diviser vos données en trois parties: formation, validation et test. Mais il n'est pas clair comment le jeu de données de test doit être utilisé, ni comment cette approche est meilleure que la validation croisée sur l'ensemble des données.
Disons que nous avons enregistré 20% de nos données sous forme de test. Ensuite, nous prenons le reste, le divisons en k plis et, en utilisant la validation croisée, nous trouvons le modèle qui fait la meilleure prédiction sur les données inconnues de cet ensemble de données. Disons que le meilleur modèle que nous avons trouvé nous donne une précision de 75% .
Divers didacticiels et de nombreuses questions sur divers sites Web de questions et réponses indiquent que nous pouvons maintenant vérifier notre modèle sur un ensemble de données (test) enregistré. Mais je ne sais toujours pas comment cela se fait exactement, ni à quoi ça sert.
Disons que nous avons une précision de 70% sur l'ensemble de données de test. Alors, que faisons-nous ensuite? Essayons-nous un autre modèle, puis un autre, jusqu'à ce que nous obtenions un score élevé sur notre ensemble de données de test? Mais dans ce cas, il semble vraiment que nous ne trouverons que le modèle qui correspond à notre ensemble de tests limité (seulement 20%) . Cela ne signifie pas que nous trouverons le modèle qui est le mieux en général.
De plus, comment considérer ce score comme une évaluation générale du modèle, s'il n'est calculé que sur un ensemble de données limité? Si ce score est faible, nous avons peut-être été malchanceux et avons sélectionné de «mauvaises» données de test.
D'un autre côté, si nous utilisons toutes les données dont nous disposons et choisissons ensuite le modèle en utilisant la validation croisée k-fold, nous trouverons le modèle qui fait la meilleure prédiction sur les données inconnues de l' ensemble de données que nous avons.