Je me demande quel type de validation croisée de modèle choisir pour un problème de classification: K-fold ou sous-échantillonnage aléatoire (échantillonnage bootstrap)?
Ma meilleure supposition est d'utiliser 2/3 de l'ensemble de données (soit environ 1000 éléments) pour la formation et 1/3 pour la validation.
Dans ce cas, K-fold ne donne que trois itérations (plis), ce qui n'est pas suffisant pour voir une erreur moyenne stable.
D'un autre côté, je n'aime pas la fonction de sous-échantillonnage aléatoire: certains éléments ne seront jamais sélectionnés pour la formation / validation, et certains seront utilisés plus d'une fois.
Algorithmes de classification utilisés: forêt aléatoire et régression logistique.