La conservation est souvent utilisée comme synonyme de validation avec un ensemble de tests indépendant, bien qu'il existe des différences cruciales entre la division aléatoire des données et la conception d'une expérience de validation pour des tests indépendants.
Des ensembles de tests indépendants peuvent être utilisés pour mesurer les performances de généralisation qui ne peuvent pas être mesurées par ré-échantillonnage ou validation par attente, par exemple les performances pour des cas futurs inconnus (= cas mesurés ultérieurement, une fois la formation terminée). Ceci est important pour savoir combien de temps un modèle existant peut être utilisé pour de nouvelles données (pensez par exemple à la dérive d’instrument). Plus généralement, cela peut être décrit comme une mesure de la performance d'extrapolation afin de définir les limites d'applicabilité.
Un autre scénario dans lequel la conservation peut être réellement bénéfique est le suivant: il est très facile de s'assurer que les données de formation et de test sont correctement séparées - beaucoup plus facile que pour la validation du rééchantillonnage:
- décider de la scission (p. ex. faire une répartition aléatoire des cas)
- mesure
- données de mesure et de référence des cas de formation => modélisation \ ni les mesures ni la référence des cas de test ne sont transmises à la personne qui modélise.
- modèle final + mesures des cas sortis => prédiction
- comparer les prévisions avec la référence pour les cas traités.
Selon le niveau de séparation dont vous avez besoin, chaque étape peut être réalisée par quelqu'un d'autre. En premier lieu, ne pas transmettre de données (pas même les mesures) des cas de test au modélisateur permet de s'assurer que rien ne fuit dans le processus de modélisation. À un deuxième niveau, les mesures finales du modèle et du test élémentaire pourraient être transmises à quelqu'un d'autre, et ainsi de suite.
Oui, vous payez pour cela par la moindre efficacité des estimations en attente par rapport à la validation du ré-échantillonnage. Mais j'ai vu de nombreux articles dans lesquels je soupçonne que la validation du rééchantillonnage ne sépare pas correctement les cas (dans mon domaine, nous avons beaucoup de données en cluster / hiérarchiques / groupées).
J'ai appris ma leçon sur les fuites de données pour le rééchantillonnage en retirant un manuscrit une semaine après la soumission, quand j'ai découvert que j'avais eu une fuite non détectée (en exécutant des tests de permutation parallèlement) dans ma procédure de fractionnement (erreur de frappe dans le calcul d'index).
Parfois, conserver est plus efficace que de trouver une personne disposée à prendre le temps de vérifier le code de rééchantillonnage (par exemple, pour les données en cluster) afin d'obtenir le même niveau de certitude quant aux résultats. Cependant, à mon humble avis, il n’est généralement pas efficace de le faire avant d’être au stade où vous devez quand même mesurer, par exemple, les performances futures (premier point) - autrement dit, lorsque vous devez malgré tout configurer une expérience de validation pour le modèle existant.
OTOH, dans des situations de taille réduite, le maintien n'est pas une option: vous devez disposer de suffisamment de tests élémentaires pour que les résultats soient suffisamment précis pour permettre la conclusion nécessaire (rappelez-vous: 3 corrects sur 3 tests de classification signifient une intervalle de confiance binomial de 95% qui va bien au-dessous de 50:50 deviner!) Frank Harrell indiquerait la règle de base qui au moins ca. 100 cas (tests) sont nécessaires pour mesurer correctement une proportion [telle que la fraction des cas correctement prédits] avec une précision utile.
Mise à jour: il existe des situations dans lesquelles une division correcte est particulièrement difficile à réaliser et où la validation croisée devient irréalisable. Considérons un problème avec un certain nombre de facteurs de confusion. La scission est facile si ces facteurs de confusion sont strictement imbriqués (par exemple, une étude portant sur plusieurs patients comporte plusieurs échantillons de chaque patient et analyse plusieurs cellules de chaque échantillon): vous effectuez une scission au niveau le plus élevé de la hiérarchie d'échantillonnage (selon le patient). . Mais vous pouvez avoir des facteurs de confusion indépendants qui ne sont pas imbriqués, par exemple une variation quotidienne ou une variance provoquée par différents expérimentateurs exécutant le test. Vous devez ensuite vous assurer que le partage est indépendant pour tousconfondeurs au plus haut niveau (les confondeurs imbriqués seront automatiquement indépendants). Il est très difficile d'y remédier, car certains facteurs de confusion ne sont identifiés qu'au cours de l'étude. Il peut être plus efficace de concevoir et de réaliser une expérience de validation que de traiter des scissions qui ne laissent pratiquement aucune donnée, ni pour la formation, ni pour le test des modèles de substitution.