En effet, rien ne garantit que les principaux composants principaux (PC) ont plus de pouvoir prédictif que ceux à faible variance.
Des exemples réels peuvent être trouvés là où ce n'est pas le cas, et il est facile de construire un exemple artificiel où, par exemple, seul le plus petit PC a une relation avec .y
Ce sujet a été beaucoup discuté sur notre forum, et en l'absence (malheureuse) d'un fil clairement canonique, je ne peux que donner plusieurs liens qui, ensemble, fournissent divers exemples réels ainsi que des exemples artificiels:
Et le même sujet, mais dans le cadre de la classification:
Cependant, dans la pratique, souvent top PC ne disposent souvent plus de pouvoir prédictif que ceux à faible variance, et de plus, en utilisant uniquement des PC peut donner un meilleur pouvoir prédictif que d' utiliser tous les PC.
Dans les situations avec beaucoup de prédicteurs et relativement peu de points de données n (par exemple lorsque p ≈ n ou même p > n ), la régression ordinaire surajustera et devra être régularisée. La régression en composantes principales (PCR) peut être considérée comme un moyen de régulariser la régression et aura tendance à donner des résultats supérieurs. De plus, il est étroitement lié à la régression des crêtes, qui est un moyen standard de régularisation du retrait. Alors que l'utilisation de la régression de crête est généralement une meilleure idée, la PCR se comportera souvent raisonnablement bien. Voir Pourquoi le retrait fonctionne-t-il? pour la discussion générale sur le compromis biais-variance et sur la façon dont le retrait peut être bénéfique.pnp ≈ np > n
D'une certaine manière, on peut dire que la régression des crêtes et la PCR supposent que la plupart des informations sur sont contenues dans les grands PC de X , et cette hypothèse est souvent justifiée.yX
Voir la réponse ultérieure de @cbeleites (+1) pour une discussion sur la raison pour laquelle cette hypothèse est souvent justifiée (et aussi sur ce fil plus récent: la réduction de la dimensionnalité est-elle presque toujours utile pour la classification? Pour d'autres commentaires).
Hastie et al. dans The Elements of Statistical Learning (section 3.4.1), commentez ceci dans le contexte de la régression des crêtes:
X
Voir mes réponses dans les fils suivants pour plus de détails:
Conclusion
Pour les problèmes de grande dimension, le prétraitement avec PCA (ce qui signifie réduire la dimensionnalité et ne garder que les meilleurs PC) peut être considéré comme un moyen de régularisation et améliorera souvent les résultats de toute analyse ultérieure, que ce soit une régression ou une méthode de classification. Mais rien ne garantit que cela fonctionnera et il existe souvent de meilleures approches de régularisation.