Faire CCA vs construire une variable dépendante avec PCA puis faire une régression


9

Étant donné deux ensembles de données multidimensionnels, X et Y, certaines personnes effectuent une analyse multivariable en créant une variable dépendante de substitution à l'aide de l' analyse en composantes principales (ACP). Autrement dit, exécutez PCA surY définir, prendre des scores le long du premier composant yet exécutez une régression multiple de ces scores sur X: y=βX+ϵ. (Je fonde ma question sur cet article ).

Cela ressemble à une forme falsifiée d' analyse de corrélation canonique (CCA) entre les deux ensembles de données pour moi. Mais n'ayant aucune expérience dans ce domaine, je ne peux pas mettre le doigt dessus. Donc, ma question est, quels pourraient être les avantages / inconvénients de l'analyse de régression PCA +, par rapport à CCA?

L'intuition dit que l'ACC devrait être plus raisonnable ici, car (je crois) elle construit les variances canoniques non pas pour maximiser aveuglément la variance expliquée, mais déjà dans le but final de maximiser la corrélation avec Xà l'esprit. Ai-je raison?


Référence: Mei et al., 2010, Régression multivariée basée sur les composants principaux pour les études d'association génétique des composants du syndrome métabolique

Réponses:


6

C'est une bonne question, mais comme il apparaît que vous connaissez bien le PCA et le CCA, vous pouvez donc y répondre vous-même. Et vous faites:

[CCA] construit les variantes canoniques pour ne pas aveuglément [par rapport à l'existence de X] maximiser la variance expliquée [en Y], mais déjà dans le but final de maximiser la corrélation avec X à l'esprit.

Absolument vrai. La corrélation du PC du 1er Y avec l'ensemble X sera presque toujours plus faible que la corrélation du CV du 1er Y avec lui. Cela ressort des images comparant l'ACP aux actions de l'ACC.

La régression PCA + que vous envisagez est une stratégie en deux étapes, initialement «non supervisée» («aveugle», comme vous l'avez dit), tandis que l'ACC est une stratégie en une étape, «supervisée». Les deux sont valides - chacun dans ses propres paramètres d'enquête!

1er composant principal (PC1) obtenu en ACP de l'ensemble Y est une combinaison linéaire de variables Y. La première variable canonique (CV1) extraite de l'ensemble Y dans CCA des ensembles Y et X est également une combinaison linéaire de variables Y. Mais ils sont différents. (Explorez les photos liées, faites également attention à la phrase selon laquelle le CCA est plus proche - en fait une forme de - régression que le PCA.)

PC1 représente un ensemble Y . C'est le résumé linéaire et le «suppléant» de l'ensemble Y, pour affronter plus tard les relations avec le monde extérieur (comme dans une régression ultérieure de PC1 par les variables X).

CV1 représente l' ensemble X dans l' ensemble Y. C'est l'image linéaire de X appartenant à Y, "l'initié" dans Y. La relation YX est déjà là: CCA est une régression multivariée.

Supposons que j'ai les résultats d'un échantillon d'enfants sur un questionnaire d'anxiété scolaire (tel que le test de Phillips) - Y items, et leurs résultats sur un questionnaire d'adaptation sociale - X items. Je veux établir la relation entre les deux ensembles. Les éléments à la fois à l'intérieur de X et à l'intérieur de Y sont corrélés, mais ils sont assez différents et je ne suis pas satisfait de l'idée de résumer carrément les scores des articles en un seul score dans l'un ou l'autre ensemble, alors je choisis de rester multivarié.

Si je fais PCA de Y, extraire PC1, puis régresser sur X éléments, qu'est-ce que cela signifie? Cela signifie que je respecte le questionnaire d'anxiété (items Y) comme domaine souverain (fermé) des phénomènes, qui peuvent s'exprimer. Exprimez en émettant sa meilleure somme pondérée d'éléments (qui tient compte de la variance maximale) qui représente l'ensemble Y - son facteur / pivot / tendance général, le «complexe d'anxiété scolaire ordinaire», le PC1. Ce n'est pas avant que cette représentation soit formée que je passe à la question suivante comment elle pourrait être liée à l'adaptation sociale, la question que je vérifierai dans la régression.

Si je fais selbständig producteur de celui-ci. CCAde Y vs X, extraire la 1ère paire de variables canoniques - une de chaque ensemble - ayant une corrélation maximale, qu'est-ce que cela signifie? Cela signifie que je soupçonne le facteur commun entre (derrière) à la fois l'anxiété et l'adaptation qui les fait corréler les uns avec les autres. Cependant, je n'ai aucune raison ni motif d'extraire ou de modéliser ce facteur au moyen de l'ACP ou de l'analyse factorielle de l'ensemble combiné "Variables X + Variables Y" (parce que, par exemple, je vois l'anxiété et l'adaptation comme deux domaines très différents sur le plan conceptuel, ou parce que les deux questionnaires ont des échelles (unités) très différentes ou des distributions de formes différentes que je crains de «fusionner», ou le nombre d'articles y est très différent). Je me contenterai de la corrélation canonique entre les ensembles. Ou je pourrais ne pas supposer de "facteur commun" derrière les décors, et pensez simplement "X effets Y". Puisque Y est multivarié, l'effet est multidimensionnel, et je demande l'effet le plus fort du 1er ordre. Il est donné par la 1ère corrélation canonique et la variable de prédiction qui lui correspond est le CV1 de l'ensemble Y. CV1 est pêché à partir de Y, Y n'est pas


1
+1. J'ajouterais peut-être que l'ACC, comme toute autre régression, est sujette au sur-ajustement. Donc, si Y et / ou X incluent beaucoup de variables, alors le CCA peut entraîner la première composante de Y qui est prédite à 100% à partir de X mais qui est en fait entièrement due au bruit. Faire des PCA sur X et Y avant de faire CCA peut agir comme une sorte de régularisation. Réduire Y à un PC dans une forme extrême de celui-ci.
amoeba

@amoeba, merci pour l'ajout. Cela touche le côté inférentiel de l'histoire (population, signification, parcimonie) que j'ai complètement omis dans la réponse. Je pense que je comprends ce que vous dites, mais vous le dites trop réservé, pour quelqu'un. Sur-ajustement, bruit - ces choses devraient être expliquées, et donc je vous suggère peut-être d'émettre une réponse distincte pour déballer votre commentaire.
ttnphns
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.