Dans The Elements of Statistical Learning , j'ai trouvé l'énoncé suivant:
Il y a une qualification: les étapes initiales de dépistage non supervisé peuvent être effectuées avant de laisser des échantillons. Par exemple, nous pourrions sélectionner les 1000 prédicteurs présentant la variance la plus élevée parmi les 50 échantillons, avant de commencer la validation croisée. Étant donné que ce filtrage n'implique pas les étiquettes de classe, il ne donne pas aux prédicteurs un avantage injuste.
Est-ce réellement valable? Je veux dire, en filtrant les attributs au préalable, nous n'imitons pas les données d'entraînement / le nouvel environnement de données - est-ce donc important que le filtrage que nous effectuons ne soit pas supervisé? N'est-il pas préférable de faire toutes les étapes de prétraitement dans le cadre du processus de validation croisée? Si ce n'est pas le cas, cela signifie que tout le prétraitement non supervisé peut être effectué à l'avance, y compris la normalisation des fonctionnalités / PCA, etc. Mais en faisant cela sur l'ensemble de l'ensemble de formation, nous perdons en fait certaines données dans l'ensemble de formation. Je peux convenir qu'avec un ensemble de données relativement stable, ces différences devraient très probablement être minimes - mais cela ne signifie pas qu'elles n'existent pas, non? Quelle est la bonne façon d'y penser?