Juste pour ajouter un peu à la réponse de @SubravetiSuraj (+1)
La validation croisée donne une estimation pessimiste de la performance car la plupart des modèles statistiques s'amélioreront si l'ensemble d'entraînement est agrandi. Cela signifie que la validation croisée k-fold estime les performances d'un modèle formé sur un ensemble de données 100 * (k-1) / k% des données disponibles, plutôt que sur 100% de celui-ci. Donc, si vous effectuez une validation croisée pour estimer les performances, puis utilisez un modèle formé sur toutes les données pour une utilisation opérationnelle, il fonctionnera légèrement mieux que ne le suggère l'estimation de validation croisée.
La validation croisée avec omission est approximativement non biaisée , car la différence de taille entre l'ensemble d'apprentissage utilisé dans chaque pli et l'ensemble de données n'est qu'un seul modèle. Il existe un article à ce sujet de Luntz et Brailovsky (en russe).
Luntz, Aleksandr et Viktor Brailovsky. "Sur l'estimation des caractères obtenus en procédure statistique de reconnaissance." Technicheskaya Kibernetica 3.6 (1969): 6-12.
voir également
Estimation des taux d'erreur dans l'analyse discriminante Peter A. Lachenbruch et M. Ray Mickey Technometrics Vol. 10, Iss. 1,1968
Cependant, bien que la validation croisée avec omission soit approximativement sans biais, elle a tendance à avoir une variance élevée (vous obtiendrez donc des estimations très différentes si vous répétiez l'estimation avec différents échantillons initiaux de données de la même distribution). Étant donné que l'erreur de l'estimateur est une combinaison de biais et de variance, le fait que la validation croisée avec ou sans interruption soit meilleure que la validation croisée multipliée par 10 dépend des deux quantités.
Maintenant, la variance dans l'ajustement du modèle a tendance à être plus élevée s'il est ajusté à un petit ensemble de données (car il est plus sensible aux bruits / artefacts d'échantillonnage dans l'échantillon d'apprentissage particulier utilisé). Cela signifie qu'une validation croisée 10 fois est susceptible d'avoir une variance élevée (ainsi qu'un biais plus élevé) si vous ne disposez que d'une quantité limitée de données, car la taille de l'ensemble d'apprentissage sera plus petite que pour LOOCV. La validation croisée k-fold peut également avoir des problèmes de variance, mais pour une raison différente. C'est pourquoi LOOCV est souvent meilleur lorsque la taille de l'ensemble de données est petite.
Cependant, la principale raison d'utiliser LOOCV à mon avis est qu'il est peu coûteux en calcul pour certains modèles (comme la régression linéaire, la plupart des méthodes du noyau, les classificateurs du plus proche voisin, etc.), et à moins que l'ensemble de données ne soit très petit, j'utiliserais Validation croisée 10 fois si elle correspondait à mon budget de calcul, ou mieux encore, estimation bootstrap et ensachage.