Comment choisir la formation, la validation croisée et la taille des ensembles de tests pour les données de petite taille d'échantillon?

10

Supposons que j'ai un petit échantillon, par exemple N = 100 et deux classes. Comment dois-je choisir la formation, la validation croisée et la taille des ensembles de tests pour l'apprentissage automatique?

Je choisirais intuitivement

Taille de l'ensemble d'entraînement: 50
Ensemble de validation croisée taille 25, et
Taille du test: 25.

Mais cela a probablement plus ou moins de sens. Comment dois-je vraiment décider de ces valeurs? Puis-je essayer différentes options (même si je suppose que ce n'est pas si préférable ... possibilité accrue de surapprentissage)?

Et si j'avais plus de deux cours?

— est
source

2

100 est trop petit pour moi. J'opterais pour une stratégie d'abandon pour la validation croisée et l'évaluation des tests.

— Memming

Je n'ai vu aucune littérature à ce sujet (tailles minimales d'échantillon pour validation). Pas certain de pourquoi. Semble être une question importante.

— charles

15

Vous avez sûrement trouvé la question très similaire: Choix de K dans la validation croisée K-fold ?
(Y compris le lien vers le travail de Ron Kohavi)
$k$ recommandé en général.
Fait intéressant, avec ces problèmes de classification de très petite taille d'échantillon, la validation est souvent plus difficile (en termes de besoins en taille d'échantillon) que la formation d'un modèle décent. Si vous avez besoin de documentation à ce sujet, consultez par exemple notre article sur la planification de la taille des échantillons:
Beleites, C. et Neugebauer, U. et Bocklitz, T. et Krafft, C. et Popp, J .: Planification de la taille des échantillons pour les modèles de classification. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrit accepté sur arXiv: 1211.1323
Un autre point important est de faire bon usage de la possibilité d'itérer / répéter la validation croisée (ce qui est une des raisons contre LOO): cela permet de mesurer la stabilité des prédictions contre les perturbations (ie peu de cas différents) de la formation Les données.

Littérature:
- Beleites, C. & Salzer, R .: Évaluation et amélioration de la stabilité des modèles chimiométriques dans des situations de petite taille d'échantillon Anal Bioanal Chem, 2008, 390, 1261-1271.
  DOI: 10.1007 / s00216-007-1818-6
- Dixon, SJ; Heinrich, N .; Holmboe, M .; Schaefer, ML; Reed, RR; Trevejo, J. & Brereton, RG: Application de méthodes de classification lorsque la taille des groupes est inégale en incorporant des probabilités antérieures à trois approches courantes: Application aux simulations et aux chimiosignaux urinaires de souris, Chemom Intell Lab Syst, 2009, 99, 111, 120-120.
  DOI: 10.1016 / j.chemolab.2009.07.016
Si vous décidez pour une seule exécution sur un ensemble de test de maintien (pas d'itérations / répétitions),
- gardez à l'esprit que la plupart des erreurs que vous pouvez faire avec la validation croisée (ce qui conduira à un biais optimiste) peuvent également se produire avec un ensemble de tests de maintien.
- vérifiez la largeur de l'intervalle de confiance résultant pour la mesure des performances et assurez-vous que cela permet une interprétation significative des résultats (voir le document de planification de la taille de l'échantillon).

— cbeleites mécontents de SX
source

+1 uniquement pour les conseils sur l'optimisation des paramètres et la complexité du modèle. mais tous ces conseils sont fantastiques.

— charles

1

Étant donné que la taille de votre échantillon est petite, une bonne pratique serait de laisser de côté la section de validation croisée et d'utiliser un rapport de 60 à 40 ou 70 à 30.

Comme vous pouvez le voir dans la section 2.8 d' Introduction à Clementine et à l'exploration de données et également dans MSDN Library - Exploration de données - Ensembles de formation et de test, un rapport de 70 à 30 est courant. Selon les conférences Machine Learning d'Andrew Ng, un rapport 60 - 20 - 20 est recommandé.

J'espère que j'ai été utile. Meilleures salutations.

— mrdatamx
source