En principe:
Faites vos prévisions en utilisant un seul modèle formé sur l'ensemble du jeu de données (il n'y a donc qu'un seul ensemble d'entités). La validation croisée n'est utilisée que pour estimer la performance prédictive du modèle unique formé sur l'ensemble de données. En recourant à la validation croisée, il est VITAL de répéter dans chaque repli toute la procédure utilisée pour s’adapter au modèle principal, sans quoi vous risquez de vous retrouver avec un biais substantiellement optimiste en matière de performances.
Pour voir pourquoi cela se produit, considérons un problème de classification binaire avec 1000 entités binaires mais seulement 100 observations, où les observations et les observations sont purement aléatoires. Il n'existe donc aucune relation statistique entre les entités et les observations. Si nous formons un modèle primaire sur l'ensemble de données complet, nous pouvons toujours obtenir une erreur zéro sur l'ensemble de formation, car il y a plus de fonctionnalités que de cas. Nous pouvons même trouver un sous-ensemble de fonctionnalités "informatives" (qui se trouvent être corrélées par hasard). Si nous effectuons ensuite une validation croisée en utilisant uniquement ces fonctionnalités, nous obtiendrons une estimation de la performance meilleure que celle de la spéculation aléatoire. La raison en est que dans chaque étape de la procédure de validation croisée, il existe des informations sur les cas retenus utilisés pour les tests, car les fonctions ont été choisies car elles étaient toutes bonnes pour prédire, y compris ceux tenus. Bien entendu, le taux d'erreur réel sera de 0,5.
Si nous adoptons la procédure appropriée et effectuons la sélection des caractéristiques dans chaque pli, il n’y aura plus aucune information sur les cas suspendus dans le choix des caractéristiques utilisées dans ce pli. Si vous utilisez la procédure appropriée, dans ce cas, vous obtiendrez un taux d'erreur d'environ 0,5 (bien qu'il puisse varier un peu pour différentes réalisations de l'ensemble de données).
Les bons articles à lire sont:
Christophe Ambroise, Geoffrey J. McLachlan, "Biais de sélection dans l'extraction de gènes sur la base de données d'expression de microréseaux", PNAS http://www.pnas.org/content/99/10/6562.abstract
qui est très pertinent pour le PO et
Gavin C. Cawley, Nicola LC Talbot, "Sur-ajustement dans la sélection du modèle et biais de sélection ultérieurs dans l'évaluation de la performance", JMLR 11 (Jul): 2079-2107, 2010 http://jmlr.csail.mit.edu/papers /v11/cawley10a.html
ce qui démontre que la même chose peut facilement se produire lors de la sélection du modèle (par exemple, le réglage des hyper-paramètres d'un SVM, qui doivent également être répétés à chaque itération de la procédure CV).
En pratique:
Je recommanderais d'utiliser Bagging et d'utiliser l'erreur hors du sac pour estimer les performances. Vous obtiendrez un modèle de comité utilisant de nombreuses fonctionnalités, mais c'est en fait une bonne chose. Si vous utilisez un seul modèle, il est probable que vous surpasserez le critère de sélection des entités et que vous vous retrouverez avec un modèle qui fournit des prévisions plus mauvaises qu'un modèle qui utilise un plus grand nombre d'entités.
Le livre d’Alan Millers sur la sélection de sous-ensembles en régression (monographies de Chapman et Hall sur les statistiques et les probabilités appliquées, volume 95) donne le bon conseil (page 221) selon lequel si la performance prédictive est la chose la plus importante, ne faites aucune sélection de caractéristiques. , utilisez simplement la régression de crête à la place. Et c'est dans un livre sur la sélection de sous-ensembles !!! ; o)