J'ai un jeu de données pour lequel j'ai plusieurs jeux d'étiquettes binaires. Pour chaque ensemble d'étiquettes, je forme un classificateur, en l'évaluant par validation croisée. Je souhaite réduire la dimensionnalité à l'aide de l'analyse en composantes principales (ACP). Ma question est:
Est-il possible d'effectuer l'APC une fois pour l'ensemble de données complet , puis d'utiliser le nouvel ensemble de données de dimensionnalité inférieure pour la validation croisée, comme décrit ci-dessus? Ou dois-je effectuer un PCA distinct pour chaque ensemble de formation (ce qui signifierait faire un PCA séparé pour chaque classificateur et pour chaque pli de validation croisée)?
D'une part, la PCA n'utilise pas les étiquettes. D'autre part, il utilise les données de test pour effectuer la transformation, alors je crains que cela ne biaise les résultats.
Je devrais mentionner que, en plus de me faire économiser du travail, effectuer l’ACP une fois sur l’ensemble du jeu de données me permettrait de le visualiser simultanément pour tous les ensembles d’étiquettes. Si j'ai une ACP différente pour chaque jeu d'étiquettes, je devrai visualiser chaque jeu d'étiquettes séparément.
caret
package: PCA et validation croisée dans k-fold dans Caret .