Si j'ai un ensemble de données avec observations et p variables (dimensions), et généralement n est petit ( n = 12 - 16 ), et p peut varier de petit ( p = 4 - 10 ) à peut-être beaucoup plus grand ( p = 30 - 50 ).
Je me souviens avoir appris que devrait être beaucoup plus grand que p pour exécuter l'analyse en composantes principales (ACP) ou l'analyse factorielle (FA), mais il semble que ce ne soit pas le cas dans mes données. Notez que pour mes besoins, je suis rarement intéressé par les principaux composants après PC2.
Des questions:
- Quelles sont les règles de base pour la taille minimale de l'échantillon lorsque PCA est OK à utiliser et quand il ne l'est pas?
- Est-il jamais OK d'utiliser les premiers PC même si ou n < p ?
- Y a-t-il des références à ce sujet?
Est-ce important si votre objectif principal est d'utiliser PC1 et éventuellement PC2:
- simplement graphiquement, ou
- comme variable synthétique puis utilisée dans la régression?