Dans son article Linear Model Selection by Cross-Validation , Jun Shao montre que pour le problème de la sélection des variables dans la régression linéaire multivariée, la méthode de validation croisée avec oubli (LOOCV) est `` asymptotiquement incohérente ''. En clair, il a tendance à sélectionner des modèles avec trop de variables. Dans une étude de simulation, Shao montre que même pour aussi peu que 40 observations, LOOCV peut sous-performer d'autres techniques de validation croisée.
Cet article est quelque peu controversé et quelque peu ignoré (10 ans après sa publication, mes collègues chimiométriques n'en avaient jamais entendu parler et utilisaient volontiers LOOCV pour la sélection des variables ...). Il y a aussi une croyance (j'en suis coupable), que ses résultats dépassent quelque peu la portée limitée d'origine.
La question est donc: jusqu'où ces résultats s'étendent-ils? Sont-ils applicables aux problèmes suivants?
- Sélection variable pour la régression logistique / GLM?
- Sélection variable pour la classification Fisher LDA?
- Sélection de variables utilisant SVM avec un espace noyau fini (ou infini)?
- Comparaison des modèles de classification, par exemple SVM utilisant différents noyaux?
- Comparaison de modèles en régression linéaire, disons comparer MLR à Ridge Regression?
- etc.