Nous utilisons généralement l'ACP comme technique de réduction de la dimensionnalité pour les données où les cas sont supposés être iid
Question: Quelles sont les nuances typiques dans l'application de l'ACP pour des données dépendantes et non iid? Quelles propriétés agréables / utiles de PCA détiennent pour les données iid sont compromises (ou complètement perdues)?
Par exemple, les données pourraient être une série temporelle multivariée, auquel cas on pourrait s'attendre à une autocorrélation ou à une hétéroscédasticité conditionnelle autorégressive (ARCH).
Plusieurs questions connexes sur l'application de l'APC aux données de séries chronologiques ont déjà été posées, par exemple 1 , 2 , 3 , 4 , mais je cherche une réponse plus générale et complète (sans avoir besoin de développer beaucoup sur chaque point individuel).
Edit: Comme indiqué par @ttnphns, PCA lui - même n'est pas une analyse inférentielle. Cependant, on pourrait être intéressé par les performances de généralisation de l'ACP, c'est-à-dire en se concentrant sur la population homologue de l'échantillon d'ACP. Par exemple, comme écrit dans Nadler (2008) :
En supposant que les données données sont un échantillon fini et aléatoire d'une distribution (généralement inconnue), une question théorique et pratique intéressante est la relation entre les résultats de l'échantillon d'ACP calculés à partir de données finies et ceux du modèle de population sous-jacent.
Les références:
- Nadler, Boaz. "Résultats d'approximation d'échantillons finis pour l'analyse en composantes principales: une approche de perturbation matricielle." The Annals of Statistics (2008): 2791-2817.