Étant donné que le PO a placé une prime sur cette question, elle devrait attirer l’attention. C’est donc le bon endroit pour discuter de certaines idées générales, même si cela ne répond pas directement au PO.
Prénoms:
a) La validation croisée est le nom général de toutes les techniques d'estimation / mesure qui utilisent un ensemble de test différent de celui du train. Synonyme: estimations hors échantillon ou extra-échantillon. Antonym: estimation dans l'échantillon.
L'estimation dans l'échantillon est une technique qui utilise certaines informations sur l'ensemble d'apprentissage pour estimer la qualité du modèle (pas nécessairement l'erreur). Ceci est très courant si le modèle comporte un biais élevé - c’est-à-dire qu’il repose sur de fortes hypothèses concernant les données. Dans les modèles linéaires (un modèle à biais élevé), comme dans l'exemple de la question, on utilise R-carré, AIC, BIC, déviance, comme mesure de la qualité du modèle - ce sont tous des estimateurs dans l'échantillon. Dans SVM, par exemple, les données de ratio dans le vecteur de support par rapport au nombre de données constituent une estimation d'erreur du modèle dans l'échantillon.
Il existe de nombreuses techniques de validation croisée:
b) hold-out est la méthode # 1 ci-dessus. Divisez le jeu en une formation et un test. Il y a une longue histoire de discussions et de pratiques sur la taille relative de l'ensemble de formation et de test.
c) k- fold - méthode n ° 2 ci-dessus. Assez standard.
d) Laissez-une-sortie - méthode n ° 3 ci-dessus.
e) bootstrap : si votre ensemble contient N données, sélectionnez au hasard N échantillons AVEC REMPLACEMENT dans le jeu et utilisez-le comme entraînement. Les données du jeu d'origine qui n'ont pas été échantillonnées à tout moment sont utilisées comme jeu de test. Il existe différentes manières de calculer l'estimation finale de l'erreur du modèle en utilisant à la fois l'erreur pour l'ensemble de test (hors échantillon) et l'erreur pour l'ensemble du train (dans l'échantillon). Voir par exemple le bootstrap .632. Je pense qu'il existe également une formule 0,632+ - ce sont des formules qui estiment l'erreur réelle du modèle en utilisant à la fois des erreurs hors échantillon et des erreurs intra-échantillon.
f) Le problème de la répétition est orthogonal au choix de la méthode ci-dessus. À l'exception de Leave-one-out, toutes les méthodes ci-dessus peuvent être répétées autant de fois que nécessaire. En fait, on peut parler de maintien REPEATED ou de k- fold REPEATED. Pour être juste, presque toujours la méthode bootstrap est utilisée de manière répétée.
La question suivante est de savoir quelle méthode est "meilleure". Le problème est ce que "mieux" signifie.
1) La première réponse est de savoir si chacune de ces méthodes est biaisée pour l'estimation de l'erreur de modèle (pour une quantité infinie de données futures).
2) La deuxième alternative est la rapidité ou la précision avec laquelle chacune de ces méthodes converge vers la véritable erreur de modèle (si elles ne sont pas biaisées). Je crois que c'est toujours un sujet de recherche. Permettez-moi de souligner ces deux documents (derrière le mur de paiement), mais le résumé nous donne une idée de ce qu’ils essaient d’accomplir. Notez également qu'il est très courant d'appeler k- fold comme "validation croisée" par lui-même.
Il existe probablement de nombreux autres articles sur ces sujets. Ce ne sont que quelques exemples.
3) Un autre aspect de "mieux" est le suivant: étant donné une mesure particulière de l'erreur de modèle en utilisant l'une des techniques ci-dessus, vous pouvez être certain que l'erreur de modèle correcte est proche.
En général, dans ce cas, vous souhaitez prendre plusieurs mesures de l'erreur et calculer un intervalle de confiance (ou un intervalle crédible si vous suivez une approche bayésienne). Dans ce cas, la question est de savoir dans quelle mesure pouvez-vous faire confiance à la variance de l'ensemble des mesures d'erreur. Notez que toutes les techniques ci-dessus, à l'exception de la règle d'exclusion, vous donneront de nombreuses mesures différentes ( k mesures pour un k- pli, n mesures pour un maintien n- répété) et vous pourrez ainsi mesurer la variance (ou l'écart type). ) de cet ensemble et calculer un intervalle de confiance pour la mesure de l'erreur.
Ici, les choses se compliquent un peu. D'après ce que j'ai compris dans le document. Aucun estimateur non biaisé de la variance de la validation croisée par k- fold (pas derrière paywall), on ne peut pas faire confiance à la variance obtenue d'un k- fold - on ne peut donc pas construire un bon intervalle de confiance à partir de k - plis. En outre de ce que je comprends du papier approximatif tests statistiques pour comparer les algorithmes d' apprentissage Classification supervisée (non derrière paywall), les techniques qui utilisent des mesures répétées (répétées kplusieurs fois, le maintien répété - pas sûr du bootstrap) va sous-estimer la variance réelle de la mesure d'erreur (il est assez facile de le voir - puisque vous échantillonnez à partir d'un ensemble fini si vous répétez la mesure avec un très grand nombre fois, les mêmes valeurs continueront à se répéter, ce qui maintiendra la moyenne, mais réduira la variance). Ainsi, les techniques de mesures répétées seront trop optimistes quant à l’intervalle de confiance.
Ce dernier article suggère de faire un 5 répétitions sur 2 - qu'il appelle 5 × 2 CV - comme un bon équilibre de nombreuses mesures (10) mais pas trop de répétitions.
MODIFIER:
Bien sûr, il existe d’excellentes réponses dans Cross Validated à certaines de ces questions (bien qu’elles ne soient parfois pas d’accord entre elles). Voilà quelque:
Validation croisée ou amorce pour évaluer les performances de la classification?
Différences entre validation croisée et amorçage pour estimer l'erreur de prédiction
Validation croisée ou amorce pour évaluer les performances de la classification?
Comprendre l'amorçage pour la validation et la sélection du modèle
En général, le tag validation croisée est votre ami ici.
Alors quelle est la meilleure solution? Je ne sais pas. J'utilise 5 × 2 CV lorsque j'ai besoin d'être très rigoureux, quand je dois être sûr qu'une technique est meilleure qu'une autre, en particulier dans les publications. Et j'utilise un hold-up si je ne prévois pas de mesurer la variance ou l'écart-type, ou si j'ai des contraintes de temps - il n'y a qu'un seul modèle d'apprentissage dans un hold-out .