Comment choisir la formation, la validation croisée et la taille des ensembles de tests pour les données de petite taille d'échantillon?


10

Supposons que j'ai un petit échantillon, par exemple N = 100 et deux classes. Comment dois-je choisir la formation, la validation croisée et la taille des ensembles de tests pour l'apprentissage automatique?

Je choisirais intuitivement

  • Taille de l'ensemble d'entraînement: 50
  • Ensemble de validation croisée taille 25, et
  • Taille du test: 25.

Mais cela a probablement plus ou moins de sens. Comment dois-je vraiment décider de ces valeurs? Puis-je essayer différentes options (même si je suppose que ce n'est pas si préférable ... possibilité accrue de surapprentissage)?

Et si j'avais plus de deux cours?


2
100 est trop petit pour moi. J'opterais pour une stratégie d'abandon pour la validation croisée et l'évaluation des tests.
Memming

Je n'ai vu aucune littérature à ce sujet (tailles minimales d'échantillon pour validation). Pas certain de pourquoi. Semble être une question importante.
charles

Réponses:


15

+1 uniquement pour les conseils sur l'optimisation des paramètres et la complexité du modèle. mais tous ces conseils sont fantastiques.
charles

1

Étant donné que la taille de votre échantillon est petite, une bonne pratique serait de laisser de côté la section de validation croisée et d'utiliser un rapport de 60 à 40 ou 70 à 30.

Comme vous pouvez le voir dans la section 2.8 d' Introduction à Clementine et à l'exploration de données et également dans MSDN Library - Exploration de données - Ensembles de formation et de test, un rapport de 70 à 30 est courant. Selon les conférences Machine Learning d'Andrew Ng, un rapport 60 - 20 - 20 est recommandé.

J'espère que j'ai été utile. Meilleures salutations.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.