Vous seriez surpris d'apprendre que 80/20 est un ratio assez courant, souvent appelé le principe de Pareto . C'est généralement une valeur sûre si vous utilisez ce ratio.
Cependant, selon la méthodologie de formation / validation que vous employez, le ratio peut changer. Par exemple: si vous utilisez la validation croisée 10 fois, vous vous retrouverez avec un ensemble de validation de 10% à chaque fois.
Il y a eu quelques recherches pour déterminer quel est le bon rapport entre l'ensemble d'apprentissage et l'ensemble de validation :
La fraction de motifs réservée à l'ensemble de validation doit être inversement proportionnelle à la racine carrée du nombre de paramètres réglables libres.
Dans leur conclusion, ils spécifient une formule:
Le rapport de taille de l'ensemble de validation (v) à l'ensemble d'apprentissage (t), v / t, échelles comme ln (N / h-max), où N est le nombre de familles de dispositifs de reconnaissance et h-max est la plus grande complexité de ces familles.
Ce qu'ils entendent par complexité est:
Chaque famille de reconnaissance est caractérisée par sa complexité, qui peut ou non être liée à la dimension VC , à la longueur de la description, au nombre de paramètres ajustables ou à d'autres mesures de complexité.
En prenant la première règle empirique (c'est-à-dire que l'ensemble de validation doit être inversement proportionnel à la racine carrée du nombre de paramètres ajustables libres), vous pouvez conclure que si vous avez 32 paramètres ajustables, la racine carrée de 32 est ~ 5,65, la fraction doit être 1 / 5,65 ou 0,177 (v / t). Environ 17,7% devraient être réservés à la validation et 82,3% à la formation.