Des ensembles de validation plus grands donnent des estimations plus précises des performances hors échantillon. Mais comme vous l'avez remarqué, à un moment donné, cette estimation peut être aussi précise que vous en avez besoin, et vous pouvez faire des prédictions approximatives quant à la taille de l'échantillon de validation dont vous avez besoin pour atteindre ce point.
Pour une précision de classification correcte / incorrecte simple, vous pouvez calculer l'erreur-type de l'estimation comme (écart-type d'une variable de Bernouilli), oùpest la probabilité d'une classification correcte etnest la taille de l'ensemble de validation. Bien sûr, vous ne connaissez pasp, mais vous pourriez avoir une idée de sa portée. Par exemple, supposons que vous vous attendiez à une précision comprise entre 60 et 80%, et que vous souhaitiez que vos estimations aient une erreur standard inférieure à 0,1%:
√p ( 1 - p ) / n---------√pnp
Quelle doit êtrela taille den(la taille de l'ensemble de validation)? Pourp=0,6on obtient:
n> 0,6 - 0,6 2
p ( 1 - p ) / n---------√< 0,001
np = 0,6
Pour
p=0,8on obtient:
n>0,8-0,82n > 0,6 - 0,620,0012= 240 , 000
p = 0,8
Cela nous indique donc que vous pourriez vous en sortir en utilisant moins de 5% de vos 5 millions d'échantillons de données pour la validation. Ce pourcentage diminue si vous vous attendez à des performances plus élevées, ou surtout si vous êtes satisfait d'une erreur standard inférieure de votre estimation de performance hors échantillon (par exemple avec
p=0,7et pour un se <1%, vous n'avez besoin que de 2100 échantillons de validation , soit moins d'un vingtième pour cent de vos données).
n > 0,8 - 0,820,0012= 160 , 000
p = 0,7
Ces calculs mettent également en évidence le point soulevé par Tim dans sa réponse, à savoir que la précision de vos estimations dépend de la taille absolue de votre ensemble de validation (c'est-à-dire sur ), plutôt que de sa taille par rapport à l'ensemble d'entraînement.n
(Je pourrais également ajouter que je suppose un échantillonnage représentatif ici. Si vos données sont très hétérogènes, vous devrez peut-être utiliser des ensembles de validation plus grands juste pour vous assurer que les données de validation incluent toutes les mêmes conditions, etc., que vos données de train et de test. )