Supposons que j'ai un petit échantillon, par exemple N = 100 et deux classes. Comment dois-je choisir la formation, la validation croisée et la taille des ensembles de tests pour l'apprentissage automatique?
Je choisirais intuitivement
- Taille de l'ensemble d'entraînement: 50
- Ensemble de validation croisée taille 25, et
- Taille du test: 25.
Mais cela a probablement plus ou moins de sens. Comment dois-je vraiment décider de ces valeurs? Puis-je essayer différentes options (même si je suppose que ce n'est pas si préférable ... possibilité accrue de surapprentissage)?
Et si j'avais plus de deux cours?