Analyse fonctionnelle en composantes principales (FPCA): de quoi s'agit-il?

21

L'analyse fonctionnelle des composants principaux (FPCA) est quelque chose sur laquelle je suis tombé et que je n'ai jamais compris. C'est à propos de quoi?

Voir «Une enquête sur l'analyse des composants principaux fonctionnels» par Shang, 2011 , et je cite:

L'ACP rencontre de sérieuses difficultés dans l'analyse des données fonctionnelles en raison de la «malédiction de la dimensionnalité» (Bellman 1961). La «malédiction de la dimensionnalité» provient de la rareté des données dans un espace de grande dimension. Même si les propriétés géométriques de l'ACP restent valables et même si les techniques numériques donnent des résultats stables, la matrice de covariance de l'échantillon est parfois une mauvaise estimation de la matrice de covariance de la population. Pour surmonter cette difficulté, le FPCA fournit un moyen beaucoup plus informatif d'examiner la structure de covariance de l'échantillon que le PCA [...]

Je ne comprends tout simplement pas. Quel est l'inconvénient que ce document décrit? L'APC n'est-elle pas censée être la méthode ultime pour gérer des situations comme la «malédiction de la dimensionnalité»?

time-series pca dimensionality-reduction

— Dov
source

7

Exactement, comme vous le dites dans la question et comme le dit @tdc dans sa réponse, en cas de dimensions extrêmement élevées même si les propriétés géométriques de l'ACP restent valables, la matrice de covariance n'est plus une bonne estimation de la covariance réelle de la population.

Il y a un article très intéressant "Analyse des composants principaux fonctionnels des données IRMf" ( pdf ) où ils utilisent l'ACP fonctionnelle pour visualiser la variance:

... Comme dans d'autres techniques d'exploration, l'objectif est de fournir une évaluation initiale qui donnera aux données une chance de «parler pour elles-mêmes» avant de choisir un modèle approprié. [...]

Dans le document, ils expliquent comment exactement ils l'ont fait et fournissent également un raisonnement théorique:

L'avantage décisif de cette approche consiste en la possibilité de spécifier un ensemble d'hypothèses dans le choix de l'ensemble de fonctions de base et dans la fonction d'erreur minimisée par l'ajustement. Ces hypothèses seront plus faibles que la spécification d'une fonction hémodynamique prédéfinie et d'un ensemble d'événements ou de conditions comme dans le masquage F, préservant ainsi le caractère exploratoire de la procédure; cependant, les hypothèses pourraient rester suffisamment rigoureuses pour surmonter les dif ﬁ cultés de l'APC ordinaire.

— andreister
source

J'ai du mal à comprendre la logique derrière FPCA; J'ai regardé le document que vous avez cité, mais je reste confus. Le réglage est que la matrice de données est de taille avec séries chronologiques observées de longueur . Avec l'ACP, on peut trouver le premier vecteur propre long de la matrice de covariance; l'affirmation est que ce sera très bruyant. La solution FPCA consiste à approximer chaque série chronologique avec fonctions de base ( ), puis à effectuer l'ACP dans l'espace des fonctions de base. Correct? Dans l'affirmative, en quoi est-ce différent du lissage de chaque série chronologique et de l'exécution de PCA standard? Pourquoi un nom spécial?

n \times t

$n\times t$

n

$n$

t ≫ n

$t\gg n$

t

$t$

k

$k$

k ≪ t

$k\ll t$

— amibe dit Réintégrer Monica le

Après avoir lu un peu plus à ce sujet, j'ai décidé de poster ma propre réponse. Vous serez peut-être intéressé. J'apprécierai certainement toutes les informations supplémentaires.

— Amoeba dit Reinstate Monica

24

Je trouve que "l'ACP fonctionnelle" est une notion inutilement déroutante. Ce n'est pas du tout une chose distincte, c'est une PCA standard appliquée aux séries chronologiques.

FPCA se réfère aux situations où chacune des observations est une série chronologique (c'est-à-dire une "fonction") observée à moments, de sorte que la matrice de données entière est de taille. Habituellement , par exemple, on peut avoir séries chronologiques échantillonnées à points de temps chacune. Le but de l'analyse est de trouver plusieurs "séries temporelles propres" (également de longueur ), c'est-à-dire des vecteurs propres de la matrice de covariance, qui décriraient la forme "typique" de la série temporelle observée. $n$ $t$ $n \times t$ $t\gg n$ $20$ $1000$ $t$

On peut certainement appliquer l'APC standard ici. Apparemment, dans votre citation, l'auteur craint que la série temporelle propre qui en résulte soit trop bruyante. Cela peut arriver en effet! Deux façons évidentes de traiter cela seraient (a) de lisser la série temporelle propre résultante après l'ACP, ou (b) de lisser la série temporelle originale avant de faire l'ACP.

Une approche moins évidente, plus sophistiquée, mais presque équivalente, consiste à approximer chaque série temporelle d'origine avec fonctions de base, réduisant ainsi la dimensionnalité de à . Ensuite, on peut effectuer l'ACP et obtenir les séries temporelles propres approximées par les mêmes fonctions de base. C'est ce que l'on voit généralement dans les tutoriels FPCA. On utilise généralement des fonctions de base lisses (Gaussiennes ou composants de Fourier), donc autant que je sache, cela équivaut essentiellement à l'option simple (b) morte du cerveau ci-dessus. $k$ $t$ $k$

Les tutoriels sur FPCA entrent généralement dans de longues discussions sur la façon de généraliser l'ACP aux espaces fonctionnels de dimensionnalité infinie, mais la pertinence pratique de cela me dépasse totalement , car dans la pratique, les données fonctionnelles sont toujours discrétisées pour commencer.

Voici une illustration tirée du manuel "Functional Data Analysis" de Ramsay et Silverman, qui semble être la monographie définitive sur "l'analyse des données fonctionnelles", y compris le FPCA:

Ramsay et Silverman, FPCA

On peut voir que faire PCA sur les "données discrétisées" (points) donne pratiquement la même chose que faire FPCA sur des fonctions correspondantes en base de Fourier (lignes). Bien sûr, on pourrait d'abord faire l'APC discrète et ensuite adapter une fonction dans la même base de Fourier; cela donnerait plus ou moins le même résultat.

PS. Dans cet exemple, qui est un petit nombre avec . Peut-être que ce que les auteurs considèrent comme une "ACP fonctionnelle" dans ce cas devrait se traduire par une "fonction", c'est-à-dire une "courbe lisse", par opposition à 12 points distincts. Mais cela peut être abordé de manière triviale en interpolant puis en lissant les séries temporelles propres résultantes. Encore une fois, il semble que "PCA fonctionnel" n'est pas une chose distincte, c'est juste une application de PCA. $t=12$ $n>t$

— amibe dit réintégrer Monica
source

2

Dans le cas de trajectoires échantillonnées de manière irrégulière et clairsemée (par exemple, des données longitudinales), le FPCA est beaucoup plus impliqué que "l' interpolation puis le lissage des séries temporelles propres résultantes ". Par exemple, même si l'on obtient en quelque sorte des composants électroniques, le calcul des scores de projection des données rares n'est pas bien défini; voir par exemple: Yao et al. JASA 2005. Accordé pour les processus échantillonnés de manière dense et régulière. Le FPCA est en fait du PCA avec quelques pénalités de douceur en plus.

— usεr11852 dit Réintégrer Monic le

Merci, @ usεr11852 (+1). J'ai besoin de trouver le temps de l'examiner à nouveau. Je vais essayer de rechercher le document auquel vous avez fait référence et de revenir à cette réponse.

— amibe dit Reinstate Monica

@amoeba, tout cela semble presque lié à une transformation de Fourier discrète, où vous récupérez les ondes composantes d'une onde / série temporelle complexe?

— Russell Richie

9

J'ai travaillé pendant plusieurs années avec Jim Ramsay à la FDA, donc je peux peut-être ajouter quelques clarifications à la réponse de @ amoeba. Je pense que sur le plan pratique, @amoeba a fondamentalement raison. C'est du moins la conclusion à laquelle j'ai finalement abouti après avoir étudié la FDA. Cependant, le cadre de la FDA donne un aperçu théorique intéressant de la raison pour laquelle le lissage des vecteurs propres est plus qu'un simple effort. Il s'avère que l'optmisation dans l'espace de fonction, soumise à un produit intérieur qui contient une pénalité de lissage, donne une solution dimensionnelle finie de splines de base. La FDA utilise l'espace de fonction de dimension infinie, mais l'analyse ne nécessite pas un nombre infini de dimensions. C'est comme l'astuce du noyau dans les processus gaussiens ou SVM. En fait, cela ressemble beaucoup à l'astuce du noyau.

Le travail original de Ramsay portait sur des situations où l'histoire principale des données est évidente: les fonctions sont plus ou moins linéaires, ou plus ou moins périodiques. Les vecteurs propres dominants de l'ACP standard ne feront que refléter le niveau global des fonctions et la tendance linéaire (ou fonctions sinus), nous indiquant essentiellement ce que nous savons déjà. Les caractéristiques intéressantes résident dans les résidus, qui sont maintenant plusieurs vecteurs propres du haut de la liste. Et puisque chaque vecteur propre suivant doit être orthogonal aux précédents, ces constructions dépendent de plus en plus des artefacts de l'analyse et moins des caractéristiques pertinentes des données. En analyse factorielle, la rotation oblique des facteurs vise à résoudre ce problème. L'idée de Ramsay n'était pas de faire tourner les composants, mais plutôt de changer la définition de l'orthogonalité de manière à mieux refléter les besoins de l'analyse. Cela signifiait que si vous étiez concerné par des composants périodiques, vous lisseriez sur la base de $D^3-D$ $D^2$

On pourrait objecter qu'il serait plus simple de supprimer la tendance avec OLS et d'examiner les résidus de cette opération. Je n'ai jamais été convaincu que la valeur ajoutée de la FDA valait l'énorme complexité de la méthode. Mais d'un point de vue théorique, il convient de considérer les problèmes impliqués. Tout ce que nous faisons pour les données gâche les choses. Les résidus d'OLS sont corrélés, même lorsque les données d'origine étaient indépendantes. Le lissage d'une série chronologique introduit des autocorrélations qui n'étaient pas dans la série brute. L'idée de la FDA était de s'assurer que les résidus que nous obtenions de la décroissance initiale étaient adaptés à l'analyse d'intérêt.

Vous devez vous rappeler que la FDA est née au début des années 80 lorsque les fonctions splines étaient à l'étude active - pensez à Grace Wahba et à son équipe. De nombreuses approches des données multivariées ont émergé depuis lors - comme SEM, analyse de courbe de croissance, processus gaussiens, développements ultérieurs dans la théorie des processus stochastiques, et bien d'autres. Je ne suis pas sûr que la FDA reste la meilleure approche pour les questions qu'elle aborde. D'un autre côté, quand je vois des applications de ce qui est censé être la FDA, je me demande souvent si les auteurs comprennent vraiment ce que la FDA essayait de faire.

— Placidia
source

+1. Oups, je n'ai remarqué votre réponse que maintenant, et seulement par hasard (quelqu'un d'autre a laissé un commentaire sous ma réponse ici et j'ai fait défiler vers le bas). Merci beaucoup pour votre contribution! Je pense que je dois trouver le temps de lire un peu plus à ce sujet et de réfléchir à ce que vous avez dit sur la similitude avec l'astuce du noyau. Cela semble raisonnable.

— Amoeba dit Reinstate Monica

5

Je ne suis pas sûr de FPCA, mais une chose à retenir, c'est que dans des dimensions extrêmement élevées, il y a beaucoup plus "d'espace", et les points dans l'espace commencent à sembler uniformément distribués (c'est-à-dire que tout est loin de tout le reste). À ce stade, la matrice de covariance commencera à sembler essentiellement uniforme et sera très très sensible au bruit. Il devient donc une mauvaise estimation de la "vraie" covariance. Peut-être que le FPCA contourne cela, mais je ne suis pas sûr.

— tdc
source