Intuition / interprétation d'une distribution de valeurs propres d'une matrice de corrélation?


13

Quelle est votre intuition / interprétation d'une distribution de valeurs propres d'une matrice de corrélation? J'ai tendance à entendre que généralement les 3 valeurs propres les plus importantes sont les plus importantes, tandis que celles proches de zéro sont du bruit. En outre, j'ai vu quelques articles de recherche sur la façon dont les distributions de valeurs propres se produisant naturellement diffèrent de celles calculées à partir de matrices de corrélation aléatoires (encore une fois, en distinguant le bruit du signal).

N'hésitez pas à développer vos idées.


Avez-vous à l’esprit une application particulière, c’est-à-dire recherchez-vous des conseils généraux sur le nombre de véhicules électriques que nous devons considérer en dehors de toute application (c.-à-d. Purement mathématique) ou doit-elle s’appliquer à un contexte spécifique (par exemple, analyse factorielle, PCA, etc.)?
chl

Je m'intéresse davantage au côté mathématique, c'est-à-dire aux valeurs propres en tant que propriété des données sous-jacentes à une matrice de corrélation. S'il est logique d'en discuter en termes de contexte spécifique, n'hésitez pas à le faire également.
Eduardas

Réponses:


4

J'ai tendance à entendre que généralement les 3 valeurs propres les plus importantes sont les plus importantes, tandis que celles proches de zéro sont le bruit

Vous pouvez tester cela. Voir l'article lié dans cet article pour plus de détails. Encore une fois, si vous traitez avec des séries chronologiques financières, vous voudrez peut-être d'abord corriger la leptokurticité (c.-à-d. Considérer la série de rendements ajustés en fonction du marché, pas les rendements bruts).

J'ai vu quelques articles de recherche enquêter sur la façon dont les distributions de valeurs propres d'origine naturelle diffèrent de celles calculées à partir de matrices de corrélation aléatoires (encore une fois, en distinguant le bruit du signal).

Edward:> Habituellement, on le ferait dans l'autre sens: regardez la distribution multivariée des valeurs propres (des matrices de corrélation) provenant de l'application que vous voulez. Une fois que vous avez identifié un candidat crédible pour la distribution des valeurs propres, il devrait être assez facile de générer à partir d'eux.

La meilleure procédure pour identifier la distribution multivariée de vos valeurs propres dépend du nombre d'actifs que vous souhaitez considérer simultanément (c'est-à-dire quelles sont les dimensions de votre matrice de corrélation). Il y a une astuce intéressante si ( étant le nombre d'actifs).pp10p

Modifier (commentaires de Shabbychef)

procédure en quatre étapes:

  1. Supposons que vous ayez sous-échantillons de données multivariées. Vous avez besoin d'un estimateur de la matrice variance-covariance pour chaque sous-échantillon (vous pouvez utiliser l'estimateur classique ou une alternative robuste comme le MCD rapide , qui est bien implémenté dans matlab, SAS, S, R, ...). Comme d'habitude, si vous traitez avec des séries chronologiques financières, vous voudrez peut-être considérer la série de rendements ajustés en garch, et non les rendements bruts.˜ C j jj=1,...,JC~jj
  2. Pour chaque sous-échantillon , calculez , ..., , les valeurs propres de .˜ Λ j = log ( ˜ λ j 1 ) log ( ˜ λ j p ) ˜ C jjΛ~j= log(λ~1j)log(λ~pj)C~j
  3. Calculez , la coque convexe de la matrice dont la j-ième entrée est (encore une fois, cela est bien implémenté dans Matlab, R, ...) .J × p ˜ Λ jCV(Λ~)J×pΛ~j
  4. Dessinez des points au hasard depuis l'intérieur du (cela se fait en donnant du poids à chacun des bords du où , où est un tirage d'une distribution exponentielle unitaire (plus de détails ici ).CV(Λ~)wiCV(Λ~)wi=γii=1pγiγi

Une limitation est que le calcul rapide de la coque convexe d'une série de points devient extrêmement lent lorsque le nombre de dimensions est supérieur à 10.J2


1
Je suis curieux: quel est le truc?
shabbychef

Voulez-vous dire les vecteurs propres de en 3? pas des valeurs ? C~
shabbychef

non. est un scalaire. λ1
user603

Il s'agit d'une procédure très étrange; a-t-il été publié quelque part?
shabbychef

@Shabbychev:> non, mais j'ai eu l'occasion de travailler sur un problème connexe (mais pas sur une série chronologique) il y a quelque temps (même problème que celui-ci stats.stackexchange.com/questions/2572/… )
user603

11

Les valeurs propres donnent l'ampleur des principales composantes de la diffusion des données.



(3001)π/4


2

k

Habituellement, le premier portefeuille propre a une pondération presque égale dans chaque nom, c'est-à-dire le portefeuille «marché» composé de tous les actifs avec des pondérations égales en dollars. Le deuxième portefeuille propre peut avoir une signification sémantique, selon la période de temps que vous examinez: par exemple, principalement les actions énergétiques, ou les actions bancaires, etc. et cela dépend en partie de la sélection de l'univers et de la période considérée. C'est très bien car généralement la cinquième valeur propre n'est pas trop loin au-delà des limites imposées par la distribution de Marchenko-Pastur.


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.