La sélection des fonctionnalités doit-elle être effectuée uniquement sur les données d'entraînement (ou toutes les données)? J'ai parcouru des discussions et des articles tels que Guyon (2003) et Singhi et Liu (2006) , mais je ne suis toujours pas sûr de la bonne réponse.
La configuration de mon expérience est la suivante:
- Ensemble de données: 50 témoins sains et 50 patients atteints de maladie (caractéristiques du cca 200 pouvant être pertinentes pour la prédiction de la maladie).
- La tâche consiste à diagnostiquer la maladie en fonction des fonctionnalités disponibles.
Ce que je fais c'est
- Prenez l'ensemble de données et effectuez la sélection d'entités (FS). Je conserve uniquement les fonctionnalités sélectionnées pour un traitement ultérieur
- Fractionner pour tester et former, classificateur de train en utilisant les données du train et les caractéristiques sélectionnées. Ensuite, appliquez le classificateur aux données de test (à nouveau en utilisant uniquement les fonctionnalités sélectionnées). La validation sans intervention est utilisée.
- obtenir une précision de classification
- Moyenne: répéter 1) -3) N fois. (100).
Je suis d'accord que faire de la FS sur l'ensemble de données entier peut introduire un certain biais, mais mon avis est qu'il est "moyenné" pendant la moyenne (étape 4). Est-ce exact? (La variance de précision est )
1 Guyon, I. (2003) "An Introduction to Variable and Feature Selection", The Journal of Machine Learning Research, Vol. 3, pp. 1157-1182
2 Singhi, SK et Liu, H. (2006) "Feature Subset Selection Bias for Classification Learning", Proceeding ICML '06 Actes de la 23e conférence internationale sur l'apprentissage automatique, pp. 849-856