Permettez-moi d'ajouter quelques points aux belles réponses qui sont déjà là:
Pli en K imbriqué vs pli en K répété: les plis en K imbriqués et répétés sont des choses totalement différentes, utilisées à des fins différentes.
- Comme vous le savez déjà , imbriqué est bon si vous souhaitez utiliser le cv interne pour la sélection du modèle.
- répété: À mon humble avis, vous devez toujours répéter le k-fold cv [voir ci-dessous].
Je recommande donc de répéter toute validation croisée imbriquée k-fold .
Meilleur rapport "Les statistiques de notre estimateur, par exemple son intervalle de confiance, sa variance, sa moyenne, etc. sur l'échantillon complet (dans ce cas l'échantillon CV)." :
Sûr. Cependant, vous devez être conscient du fait que vous ne pourrez pas (facilement) estimer l'intervalle de confiance uniquement par les résultats de la validation croisée. La raison en est que, même si vous rééchantillonnez, le nombre réel de cas que vous examinez est fini (et généralement assez petit - sinon vous ne vous soucieriez pas de ces distinctions).
Voir par exemple Bengio, Y. et Grandvalet, Y .: No Unbias Estimator of the Variance of K-Fold Cross-Validation Journal of Machine Learning Research, 2004, 5, 1089-1105 .
Cependant, dans certaines situations, vous pouvez néanmoins faire des estimations de la variance: avec la validation croisée répétée k-fold, vous pouvez avoir une idée si l'instabilité du modèle joue un rôle. Et cette variance liée à l'instabilité est en fait la partie de la variance que vous pouvez réduire par une validation croisée répétée. (Si vos modèles sont parfaitement stables, chaque répétition / itération de la validation croisée aura exactement les mêmes prédictions pour chaque cas. Cependant, vous avez toujours une variance en raison du choix / composition réelle de votre ensemble de données). Il y a donc une limite à la variance inférieure de la validation croisée répétée k-fold. Faire de plus en plus de répétitions / itérations n'a pas de sens, car la variance causée par le fait qu'au final, seuls cas réels ont été testés n'est pas affectée. n
La variance causée par le fait qu'au final, seuls cas réels ont été testés peut être estimée pour certains cas spéciaux, par exemple les performances des classificateurs mesurées par des proportions telles que le taux de réussite, le taux d'erreur, la sensibilité, la spécificité, les valeurs prédictives, etc. : ils suivent des distributions binomiales Malheureusement, cela signifie qu'ils ont une énorme variance avec la vraie valeur de performance du modèle, la valeur observée et la taille de l'échantillon dans le dénominateur de la fraction. Cela a le maximum pournσ2( p^) = 1np ( 1 - p )pp^np = 0,5. Vous pouvez également calculer des intervalles de confiance à partir de l'observation. (@Frank Harrell commentera qu'il ne s'agit pas de règles de notation appropriées, vous ne devriez donc pas les utiliser de toute façon - ce qui est lié à l'énorme écart). Cependant, à mon humble avis, ils sont utiles pour dériver des limites conservatrices (il existe de meilleures règles de notation et le mauvais comportement de ces fractions est la pire des cas pour les meilleures règles),
voir par exemple C.Beleites, R. Salzer et V. Sergo: Validation des modèles de classification souple à l'aide d'appartenance à une classe partielle: un concept étendu de sensibilité & Co. appliqué à la classification des tissus d'astrocytome, Chemom. Intell. Laboratoire. Syst., 122 (2013), 12-22.
Cela me permet donc de tourner votre argumentation contre le hold-out :
- Le rééchantillonnage ne vous donne pas non plus (nécessairement) une bonne estimation de la variance,
- OTOH, si vous pouvez raisonner sur la variance de la taille d'échantillon de test fini de l'estimation de validation croisée, cela est également possible pour tenir le coup.
Notre estimateur pour cette mesure unique aurait été formé sur un ensemble (par exemple l'ensemble CV) qui est plus petit que notre échantillon initial, car nous devons faire de la place pour l'ensemble d'exclusion. Il en résulte une estimation plus biaisée (pessimiste) dans P1.
Pas nécessairement (si on le compare à k-fold) - mais il faut faire un compromis: petit ensemble de maintien (par exemple de l'échantillon => faible biais (≈ identique à k-fold cv), variance élevée (> cv fois k, environ d'un facteur k).1k
Il me semble que le reporting sur l'ensemble de test de maintien est une mauvaise pratique car l'analyse de l'échantillon de CV est plus informative.
D'habitude, oui. Cependant, il est également bon de garder à l'esprit qu'il existe des types importants d'erreurs (tels que la dérive) qui ne peuvent pas être mesurés / détectés par la validation du rééchantillonnage.
Voir par exemple Esbensen, KH et Geladi, P. Principes de bonne validation: utilisation et abus du rééchantillonnage pour validation, Journal of Chemometrics, 2010, 24, 168-187
mais il me semble que pour le même nombre de modèles totaux entraînés (nombre total de plis), le pli K répété produirait des estimateurs qui sont moins biaisés et plus précis que le pli K imbriqué. Pour voir ceci:
Le pli K répété utilise une plus grande fraction de notre échantillon total que le pli K emboîté pour le même K (c'est-à-dire qu'il conduit à un biais plus faible)
Je dirais non à cela: peu importe la façon dont la formation du modèle utilise ses échantillons de formation , tant que les modèles de substitution et le "vrai" modèle les utilisent de la même manière. façon. (Je regarde la validation croisée interne / estimation des hyper-paramètres dans le cadre de la configuration du modèle).
Les choses semblent différentes si vous comparez les modèles de substitution qui sont entraînés, y compris l'optimisation hyperparamétrique, au "modèle" qui est entraîné sur des hyperparamètres fixes. Mais à mon humble avis qui se généralise de pommes à 1 orange.k - 1kn
k
100 itérations ne donneraient que 10 mesures de notre estimateur en K-fold imbriqué (K = 10), mais 100 mesures en K-fold (plus de mesures conduisent à une variance plus faible en P2)
La question de savoir si cela fait une différence dépend de l'instabilité des modèles (de substitution), voir ci-dessus. Pour les modèles stables, cela n'a pas d'importance. Il en va peut-être de même si vous effectuez 1000 ou 100 répétitions / itérations externes.
Et cet article appartient définitivement à la liste de lecture sur ce sujet:
Cawley, GC et Talbot, NLC On Over-fiting in Model Selection and Subsequent Selection Bias in Performance Evaluation, Journal of Machine Learning Research, 2010, 11, 2079-2107