Une façon de tester le caractère aléatoire d'un petit composant principal (PC) est de le traiter comme un signal plutôt que du bruit: c'est-à-dire, essayez de prédire avec lui une autre variable d'intérêt. Il s'agit essentiellement de la régression en composantes principales (PCR) .
R2MSE
- Un modèle de génie chimique utilisant les PC 1, 3, 4, 6, 7 et 8 au total sur 9 ( Smith et Campbell, 1980 )
- Un modèle de mousson utilisant les PC 8, 2 et 10 (par ordre d'importance) sur 10 ( Kung & Sharif, 1980 )
- Un modèle économique utilisant les PC 4 et 5 sur 6 (Hill, Fomby et Johnson, 1977)
Les PC dans les exemples ci-dessus sont numérotés en fonction de la taille classée de leurs valeurs propres. Jolliffe (1982) décrit un modèle de nuage dans lequel le dernier composant contribue le plus. Il conclut:
Les exemples ci-dessus ont montré qu'il n'est pas nécessaire de trouver des données obscures ou bizarres pour que les derniers composants principaux soient importants dans la régression du composant principal. Il semble plutôt que de tels exemples puissent être assez courants dans la pratique. Hill et al. (1977) donnent une discussion approfondie et utile sur les stratégies de sélection des principaux composants qui auraient dû ancrer à jamais l'idée d'une sélection basée uniquement sur la taille de la variance. Malheureusement, cela ne semble pas avoir eu lieu, et l'idée est peut-être plus répandue aujourd'hui qu'il y a 20 ans.
SS
( p - 1 )Oui
X
Je dois cette réponse à @Scortchi, qui a corrigé mes propres idées fausses sur la sélection des PC dans la PCR avec des commentaires très utiles, notamment: " Jolliffe (2010) examine d'autres façons de sélectionner les PC." Cette référence peut être un bon endroit pour chercher d'autres idées.
Les références
- Gunst, RF et Mason, RL (1977). Estimation biaisée en régression: une évaluation utilisant l'erreur quadratique moyenne. Journal de l'American Statistical Association, 72 (359), 616–628.
- Hadi, AS et Ling, RF (1998). Quelques mises en garde sur l'utilisation de la régression des principaux composants. The American Statistician, 52 (1), 15–19. Extrait de http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .
- Hawkins, DM (1973). Sur l'étude des régressions alternatives par analyse en composantes principales. Statistiques appliquées, 22 (3), 275-286.
- Hill, RC, Fomby, TB et Johnson, SR (1977). Normes de sélection des composants pour la régression des composants principaux.Communications in Statistics - Theory and Methods, 6 (4), 309–334.
- Hotelling, H. (1957). Les relations des nouvelles méthodes statistiques multivariées à l'analyse factorielle. British Journal of Statistical Psychology, 10 (2), 69–79.
- Jackson, E. (1991). Un guide d'utilisation des principaux composants . New York: Wiley.
- Jolliffe, IT (1982). Remarque sur l'utilisation des principaux composants dans la régression. Statistiques appliquées, 31 (3), 300–303. Extrait de http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
- Jolliffe, IT (2010).Analyse en composantes principales (2e éd.). Springer.
- Kung, CE et Sharif, TA (1980). Prévision de régression du début de la mousson d'été en Inde avec des conditions atmosphériques antécédentes. Journal of Applied Meteorology, 19 (4), 370–380. Extrait de http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .
- Lott, WF (1973). L'ensemble optimal de restrictions des composants principaux sur une régression des moindres carrés. Communications in Statistics - Theory and Methods, 2 (5), 449–464.
- Mason, RL et Gunst, RF (1985). Sélection des principaux composants en régression. Statistiques et lettres de probabilité, 3 (6), 299–301.
- Massy, WF (1965). Régression des composantes principales dans la recherche statistique exploratoire. Journal de l'American Statistical Association, 60 (309), 234–256. Extrait de http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .
- Smith, G. et Campbell, F. (1980). Une critique de certaines méthodes de régression de crête. Journal de l'American Statistical Association, 75 (369), 74–81. Extrait de https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .