Ma principale question est de savoir comment comprendre la validation croisée k-fold dans le contexte des ensembles de formation / validation / test (si cela correspond à un tel contexte).
Habituellement, les gens parlent de diviser les données en un ensemble de formation, de validation et de test - disons à un ratio de 60/20/20 par cours d'Andrew Ng - où l'ensemble de validation est utilisé pour identifier les paramètres optimaux pour la formation du modèle.
Cependant, si l'on voulait utiliser la validation croisée k-fold dans l'espoir d'obtenir une mesure d'exactitude plus représentative lorsque la quantité de données est relativement petite, que signifie la validation croisée k-fold exactement dans cette répartition 60/20/20 scénario?
Par exemple, cela signifierait-il que nous combinerions réellement les ensembles de formation et de test (80% des données) et ferions une validation croisée sur eux pour obtenir notre mesure de précision (éliminer efficacement avec un `` ensemble de test '' explicite? Si oui, quel modèle formé utilisons-nous a) en production et b) à utiliser par rapport à l'ensemble de validation et à identifier les paramètres d'entraînement optimaux? Par exemple, une réponse possible pour a et b est peut-être d'utiliser le modèle le mieux replié.