Comment interpréter l'ACP sur des données de séries chronologiques?

J'essaie de comprendre l'utilisation de l'ACP dans un récent article de journal intitulé «Cartographie de l'activité cérébrale à l'échelle avec l'informatique en grappes» Freeman et al., 2014 (pdf gratuit disponible sur le site Web du laboratoire ). Ils utilisent l'ACP sur les données de séries chronologiques et utilisent les poids de l'ACP pour créer une carte du cerveau.

Les données sont des données d'imagerie essai à la moyenne, stockées en tant que matrice (appelée dans le papier) avec voxels (ou des emplacements de formation d'image dans le cerveau) points de temps (la longueur d'une seule stimulation au cerveau). $\hat {\mathbf Y}$ $n$ $\times \hat t$

Ils utilisent la SVD résultant en ( indiquant la transposition de la matrice ).

\hat{Oui} = {U S V}^{⊤}

$\hat {\mathbf Y} = \mathbf{USV}^\top$

V^{⊤}

$\mathbf V^\top$

V

$\mathbf V$

Les auteurs déclarent que

Les composantes principales (les colonnes de $\mathbf V$ ) sont des vecteurs de longueur , et les scores (les colonnes de ) sont des vecteurs de longueur (nombre de voxels), décrivant la projection de chaque voxel sur la direction donnée par la composante correspondante , formant des projections sur le volume, c'est-à-dire des cartes du cerveau entier. $\hat t$ $\mathbf U$ $n$

Ainsi , les PC sont des vecteurs de longueur . Comment puis-je interpréter que la "première composante principale explique le plus de variance" comme cela est communément exprimé dans les didacticiels de l'ACP? Nous avons commencé avec une matrice de nombreuses séries chronologiques hautement corrélées - comment une seule série temporelle PC explique-t-elle la variance dans la matrice d'origine? Je comprends toute la chose "rotation d'un nuage gaussien de points vers l'axe le plus varié", mais je ne sais pas comment cela se rapporte aux séries chronologiques. Qu'entendent les auteurs par direction lorsqu'ils déclarent: "les scores (les colonnes de ) sont des vecteurs de longueur $\hat t$ $\mathbf U$ $n$ (nombre de voxels), décrivant la projection de chaque voxel sur la direction donnée par la composante correspondante "? Comment une évolution temporelle d'une composante principale peut-elle avoir une direction?

Pour voir un exemple de la série chronologique résultante de combinaisons linéaires des principaux composants 1 et 2 et de la carte cérébrale associée, accédez au lien suivant et passez la souris sur les points du tracé XY.

Freman et coll.

Ma deuxième question est liée aux trajectoires (état-espace) qu'ils créent en utilisant les scores des composantes principales.

Ceux-ci sont créés en prenant les 2 premiers scores (dans le cas de l'exemple "optomoteur" que j'ai décrit ci-dessus) et en projetant les essais individuels (utilisés pour créer la matrice moyenne des essais décrite ci-dessus) dans le sous-espace principal par l'équation:

J = U^{⊤} Y .

$\mathbf J = \mathbf U^\top \mathbf Y.$

Comme vous pouvez le voir sur les films liés, chaque trace dans l'espace d'état représente l'activité du cerveau dans son ensemble.

Quelqu'un peut-il fournir l'intuition de ce que signifie chaque "image" du film de l'espace d'état, par rapport au chiffre qui associe l'intrigue XY des scores des 2 premiers PC. Qu'est-ce que cela signifie à un "cadre" donné pour qu'un essai de l'expérience soit dans une position dans l'espace d'état XY et qu'un autre essai soit dans une autre position? Comment les positions de l'intrigue XY dans les films sont-elles liées aux principales traces de composants dans la figure liée mentionnée dans la première partie de ma question?

Freeman et al.

— statHacker
source

+1 J'ai édité votre question, regardez comment on peut formater les équations tex ici. En dehors de cela, je connais très bien le document, donc je répondrai plus tard.

— amibe dit Réintégrer Monica

Ce n'est pas exactement ce que souhaite le PO, mais cela pourrait devenir pratique pour interpréter les principaux composants lorsqu'ils sont tirés de données de séries chronologiques, comme je le fais tout le temps. J'aime généralement interpréter l'ACP comme une expansion de Karhunen-Loève: exprimer une série chronologique donnée,

(les différentes séries chronologiques auxquelles vous appliquez l'ACP), comme une combinaison linéaire de séries chronologiques non corrélées (c'est-à-dire les principales composantes). Dans ce cas, les poids de chaque série temporelle sont donnés par les vecteurs propres obtenus à partir de la matrice de covariance.

X_{t}

$X_t$

— Néstor

(Voir ceci pour une explication plus approfondie de mon point: astro.puc.cl/~nespino/files/Ch2_PCA_nespinoza.pdf )

— Néstor

J'ai ajouté à votre question des captures d'écran auxquelles vous faisiez référence.

— amibe dit Réintégrer Monica

comment avez-vous ajouté les photos?

— statHacker

Réponses:

Q1: Quelle est la connexion entre les séries temporelles du PC et la "variance maximale"?

Les données qu'ils analysent sont points de données pour chacun des neurones, on peut donc penser que points de données dans le espace de dimension . Il s'agit d'un «nuage de points», donc effectuer l'ACP revient à trouver des directions de variance maximale, comme vous le savez bien. Je préfère appeler ces directions (qui sont des vecteurs propres de la matrice de covariance) "axes principaux", et les projections des données sur ces directions "composantes principales". $\hat t$ $n$ $\hat t$ $n$ $\mathbb R^n$

Lors de l' analyse des séries chronologiques, la seule addition de cette image est que les points sont commandés de manière significative, ou numérotées (de à au lieu d'être simplement un non ordonnée collection de points. Ce qui signifie que si nous prenons la vitesse de tir d'un seul neurone (qui est une coordonnée dans le ), alors ses valeurs peuvent être tracées en fonction du temps. De même, si l' on prend un PC (qui est une projection de sur une ligne), il a aussi des valeurs et peut être tracée en fonction du temps. Donc, si les caractéristiques originales sont des séries temporelles, les PC sont également des séries temporelles. $1$ $\hat t$ $\mathbb R^n$ $\mathbb R^n$ $\hat t$

Je suis d'accord avec l'interprétation de @ Nestor ci-dessus: chaque fonctionnalité originale peut alors être considérée comme une combinaison linéaire de PC, et comme les PC ne sont pas corrélés entre eux, on peut les considérer comme des fonctions de base dans lesquelles les fonctionnalités originales sont décomposées. C'est un peu comme l'analyse de Fourier, mais au lieu de prendre une base fixe de sinus et cosinus, nous trouvons la base "la plus appropriée" pour cet ensemble de données particulier, en un sens que le premier PC représente la plus grande variance, etc.

«Tenir compte de la plupart des écarts» signifie ici que si vous n'utilisez qu'une seule fonction de base (série chronologique) et essayez d'approximer toutes vos fonctions avec elle, le premier PC fera le meilleur travail. Donc, l'intuition de base ici est que le premier PC est une série temporelle de fonction de base qui convient le mieux à toutes les séries temporelles disponibles, etc.

Pourquoi ce passage dans Freeman et al. si confus?

Freeman et al. analyser la matrice de données avec des variables (neurones) soit en lignes (!), et non dans les colonnes. Notez qu'ils soustraient les moyennes des lignes, ce qui est logique car les variables sont généralement centrées avant l'ACP. Ensuite , ils effectuent $\hat{\mathbf Y}$ En utilisant la terminologie je préconise cidessus,colonnes desontaxes principaux (directions dans) etcolonnes desontcomposants principaux (série de temps de longueur ).

\hat{Y} = {U S V}^{⊤} .

$\hat {\mathbf Y} = \mathbf{USV}^\top.$

U

$\mathbf U$

R^{n}

$\mathbb R^n$

S V

$\mathbf{SV}$

\hat{t}

$\hat t$

La phrase que vous avez citée de Freeman et al. est assez déroutant en effet:

Les composantes principales (les colonnes de ) sont des vecteurs de longueur , et les scores (les colonnes de ) sont des vecteurs de longueur (nombre de voxels), décrivant la projection de chaque voxel sur la direction donnée par la composante correspondante , formant des projections sur le volume, c'est-à-dire des cartes du cerveau entier. $\mathbf V$ $\hat t$ $\mathbf U$ $n$

Premièrement, les colonnes de ne sont pas des PC, mais des PC mis à l'échelle à la norme unitaire. Deuxièmement, les colonnes de sont PAS des scores, car "scores" signifie généralement des PC. Troisièmement, "la direction donnée par le composant correspondant" est une notion cryptique. Je pense qu'ils renversent l'image ici et suggèrent de penser à points espace de dimension, de sorte que maintenant chaque neurone est un point de données (et non une variable). Sur le plan conceptuel, cela ressemble à un énorme changement, mais mathématiquement, cela ne fait presque aucune différence, le seul changement étant que les axes principaux et les composantes principales [unité-norme] changent de place. Dans ce cas, mes PC de haut ( série de temps) deviendront axes principaux, à savoir $\mathbf V$ $\mathbf U$ $n$ $\hat t$ $\hat t$ directions , et peut être considéré comme des projections normalisées sur ces directions (scores normalisés?). $\mathbf U$

Je trouve cela très déroutant et je suggère donc d'ignorer leur choix de mots, mais ne regardez que les formules. À partir de ce moment, je continuerai à utiliser les termes comme je les aime, pas comment Freeman et al. Utilise les.

Q2: Quelles sont les trajectoires de l'espace d'état?

Ils prennent des données d'essais uniques et les projettent sur les deux premiers axes principaux, c'est-à-dire les deux premières colonnes de ). Si vous l' avez fait avec les données d' origine , vous obtiendrez deux premières composantes principales du dos. Encore une fois, la projection sur un axe principal est un composant principal, à savoir un -long série chronologique. $\mathbf U$ $\hat{\mathbf Y}$ $\hat t$

$\mathbf Y$ $\hat t$

$\mathbf Y$

— amibe dit réintégrer Monica
source

J'ai posé cette question en commentaire ci-dessous, mais peut-être que @amoeba peut vous aider? Le premier vecteur de pondération des composants principaux est-il juste la série temporelle moyenne s'effondrant sur tous les voxels? Si c'était la moyenne, cela donnerait les scores les plus petits pour s'adapter aux traces de données individuelles. -

— statHacker

La réponse courte est non , ce n'est généralement pas la série chronologique moyenne, bien que dans de nombreux cas elle puisse être assez proche. Par exemple, pensez à une collection de séries chronologiques qui sont toutes des lignes droites avec différentes pentes (positives et négatives) passant par zéro. La série chronologique moyenne se situe alors autour de zéro constant. Mais le premier PC sera une ligne linéaire forte. BTW, je pense que c'est une excellente question et si vous voulez plus de détails et / ou de chiffres, veuillez la poser (encore) comme une question séparée. Assurez-vous simplement de ne pas dupliquer les parties de cette question sur Freeman et al .; les séparer.

— amibe dit Réintégrer Monica

(ou toute autre personne intéressée par une réponse) - en ce qui concerne Q2, que voulez-vous dire par "projeter [chaque essai] sur les deux premiers [PC]". Mathématiquement, il est très clair que U est un vecteur de longueur n voxels, et lorsque la matrice est multipliée par la matrice de longueur n Y, nous obtenons une réduction de dimensionnalité pour les 2 premiers PC. Pouvez-vous fournir une intuition en ce qui concerne U étant la matrice des scores (c'est-à-dire la distance de chaque voxel par rapport aux 2 premiers PC). Puis-je penser à chaque point temporel de J comme la moyenne 2D de la projection de chaque position de voxels dans le tracé bidimensionnel de la 1ère image ci-dessus?

— statHacker

Vous avez raison, je l'avais mal expliqué. J'ai édité ma question, en développant plusieurs parties; Veuillez relire depuis le début (ou voir ce que j'ai changé) pour vous assurer de suivre. Ne pense pas

U

$U$

U

$U$

Est "

S V

$\mathbf{SV}$

En ce qui concerne la première question. Considérez l'ensemble de la série chronologique à travers un voxel particulier comme un seul tirage à partir d'une distribution multivariée. Nous pouvons maintenant penser à cela comme un vecteur multivarié un peu comme tout autre auquel nous pourrions appliquer l'ACP. La première $p$ $\bf V$ $\hat t$

$\bf \hat Y$ $n \times \hat t$ $\bf U$ $n \times n$ $\bf V$ $\hat t \times \hat t$

En ce qui concerne la deuxième question. L'équation donnée est

$\bf J = \bf U^T Y$

$\bf J$ $\times t$

pourtant $t \ne \hat t$ $\bf J$

$\hat t$

Je n'ai pas traité de la méthodologie de coloration auparavant, et il faudrait un certain temps avant d'être confiant pour commenter cet aspect. J'ai trouvé le commentaire sur la similitude avec la figure 4c déroutant car la coloration y est obtenue par régression per-voxel. Alors que sur la figure 6, chaque trace est un artefact de l'image entière. À moins que je sois honnête, je pense que c'est la direction du stimulus pendant ce segment de temps selon le commentaire de la figure.

— conjectures
source

La première figure ci-dessus fait référence à une expérience avec le même stimulus visuel présenté à chaque fois. Il existe une figure et un film différents pour ces données. La deuxième figure ci-dessus se réfère à une expérience différente dans laquelle les stimuli sont des stimuli visuels avec des orientations différentes, les traces dans la 2ème figure ci-dessus sont colorées pour correspondre simplement à des orientations de stimuli visuels différentes.

— statHacker

Y

$\mathbf Y$

\hat{T}

$\hat {\mathbf T}$

\n

$\n$

V

$\mathbf V$

S

$\mathbf S$

J = U^{⊤} Y .

$\mathbf J = \mathbf U^\top \mathbf Y.$

U

$\mathbf U$

J'ai réarrangé les choses. Toutes mes excuses, c'était un reste avant que je trie autre chose.

— conjectures

Merci pour votre aide. Le premier vecteur de pondération des composants principaux est-il juste la série temporelle moyenne s'effondrant sur tous les voxels? Si c'était la moyenne, cela donnerait les scores les plus petits pour s'adapter aux traces de données individuelles.

— statHacker