Corrélation entre deux variables de taille inégale

9

Dans un problème sur lequel je travaille, j'ai deux variables aléatoires, X et Y. J'ai besoin de comprendre à quel point elles sont étroitement corrélées, mais elles sont de dimensions différentes. Le rang de l'espace de rangée de X est 4350, et le rang de l'espace de rangée de Y est sensiblement plus grand, dans les dizaines de milliers. X et Y ont le même nombre de colonnes.

J'ai besoin d'une mesure de corrélation entre les deux variables, et le r de Pearson nécessite que X et Y aient une dimension égale (au moins R nécessite que les deux rv soient).

Ai-je le moindre espoir de faire une corrélation entre ces deux, ou devrais-je trouver un moyen d'élaguer les observations de Y?

 EDIT

Ajout d'informations à partir des commentaires, qui devraient être dans la question.

Je suppose que j'ai oublié de le mentionner. X et Y sont des cours boursiers. La société X est publique depuis une période beaucoup plus courte que Y. Je voulais dire à quel point les prix de X et Y sont corrélés. Je pourrais certainement obtenir une corrélation pour la période de temps pendant laquelle X et Y existent tous les deux. Je voulais savoir si connaître le cours des actions pour plusieurs années supplémentaires de Y que X n'existait pas m'a fourni des informations supplémentaires.

— Christopher Aden
source

2

Cela ne ressemble pas à des observations (ou "cas") sur lesquelles vous observez à la fois une réalisation X et une réalisation Y. Comment savoir quel X est associé à quel Y?

— Stephan Kolassa

1

Je suppose que j'ai oublié de le mentionner. X et Y sont des cours boursiers. La société X est publique depuis une période beaucoup plus courte que Y. Je voulais dire à quel point les prix de X et Y sont corrélés. Je pourrais certainement obtenir une corrélation pour la période de temps pendant laquelle X et Y existent tous les deux. Je voulais savoir si connaître le cours des actions pour plusieurs années supplémentaires de Y que X n'existait pas m'a fourni des informations supplémentaires.

— Christopher Aden

2

@Christopher, je vous recommande de mettre à jour votre question pour refléter votre commentaire ci-dessus. De plus, pour que la corrélation soit significative, il faut plus que des dimensions égales; les mesures réelles doivent provenir des mêmes cas, ce qui dans votre cas est vraisemblablement le même temps.

— Jeromy Anglim

2

J'appuie le commentaire de Jeromy sur la mise à jour de la question ...

— Stephan Kolassa

Autre question: vous mentionnez que X et Y ont le même nombre de colonnes. Serait-ce un chacun? Ou avez-vous plusieurs séries à la fois pour X et Y (prix à différentes bourses ou certains autres)?

— Stephan Kolassa du

10

Aucune quantité d'imputation, d'analyse de séries chronologiques, de modèles GARCH, d'interpolation, d'extrapolation ou d'autres algorithmes sophistiqués ne fera rien pour créer des informations là où elles n'existent pas (bien qu'elles puissent créer cette illusion ;-). L'histoire du prix de Y avant que X ne soit rendu public est inutile pour évaluer leur corrélation ultérieure.

Parfois (souvent en préparation d'une introduction en bourse), les analystes utilisent des informations comptables internes (ou des enregistrements de transactions boursières privées) pour reconstruire rétrospectivement les prix hypothétiques des actions de X avant qu'elles ne deviennent publiques. En théorie, de telles informations pourraient être utilisées pour améliorer les estimations de la corrélation, mais étant donné la nature extrêmement provisoire de ces retransmissions, je doute que l'effort serait d'une quelconque utilité, sauf initialement s'il n'y a que quelques jours ou semaines de prix pour X disponibles.

— whuber
source

Clarification: je n'ai pas mentionné GARCH pour traiter le problème des données manquantes (ce qui, bien sûr, n'aurait pas de sens) - mais pour améliorer un calcul simple de corrélation entre les séries chronologiques aux moments où les deux existent.

— Stephan Kolassa du

@Stephan: OK. Je l'ai mentionné principalement pour montrer que je ne t'ignorais pas!

— whuber

1

Merci, whuber. Cela correspond à ce que je cherchais. Je ne pense pas que le backcasting sera d'une grande utilité (ou faisabilité) pour ajouter quelques semaines supplémentaires de X lorsque le délai mutuel entre X et Y est déjà d'environ 16 ans.

— Christopher Aden du

2

@Christopher: !! Avec 16 ans (de fermetures quotidiennes?), Vous disposez de suffisamment de données non seulement pour trouver une corrélation, mais aussi pour explorer son évolution au fil du temps. (C'est, je crois, l'esprit de la réponse de @Stephan Kolassa.)

— whuber

Je suis d'accord. L'utilisation de techniques pour déterminer les valeurs que X aurait prises avant son introduction en bourse semble sujette à erreur. Je pourrais également remettre en question la pertinence des données datant de 16 ans pour prédire les tendances modernes.

— Christopher Aden du

10

Le problème est donc celui des données manquantes (tous les Y n'ont pas de X correspondant, où la correspondance est opérationnalisée via des points temporels). Je ne pense pas qu'il y ait beaucoup à faire ici que de jeter le Y pour lequel vous n'avez pas de X et de calculer la corrélation sur les paires complètes.

Vous voudrez peut-être vous renseigner sur les séries chronologiques financières, bien que je ne dispose pas d'une bonne référence à ce stade (idées, n'importe qui?). Les cours des actions présentent souvent des volatilités variant dans le temps, qui peuvent être modélisées, par exemple, par GARCH . Il est concevable que vos deux séries chronologiques X et Y présentent des corrélations positives pendant les périodes de faible volatilité (lorsque l'économie croît, tous les cours des actions ont tendance à augmenter), mais des corrélations négatives lorsque la volatilité globale est élevée (le 11 septembre, les compagnies aériennes ont ravitaillé pendant l'argent a fui vers des investissements plus sûrs). Donc, le simple calcul d'une corrélation globale peut être trop dépendant de votre période d'observation.

MISE À JOUR: Je pense que vous voudrez peut-être regarder les modèles VAR (vector autorégressifs) .

— Stephan Kolassa
source

Pour les références de base des séries temporelles financières, vous pouvez voir ma réponse ici: stats.stackexchange.com/questions/328/… . Le texte Tsay est l'un des plus populaires.

— Shane

2

@Jeromy Anglim l'a correctement spécifié. Le fait de disposer d'informations supplémentaires lorsqu'une seule des séries chronologiques existait ne fournirait aucune valeur ici. Et en principe, les données doivent être échantillonnées en même temps pour qu'elles soient significatives en utilisant des mesures de corrélation conventionnelles.

Comme problème plus général, j'ajouterais qu'il existe des techniques pour traiter les données de séries temporelles à espacement irrégulier. Vous pouvez rechercher une "corrélation de séries chronologiques à espacement irrégulier". Certains travaux récents ont été menés sur la "volatilité et corrélation réalisées" (Andersen, Bollerslev, Diebold et Labys 1999) à l'aide de données à haute fréquence.

— Shane
source

1

Compte tenu des informations supplémentaires contenues dans vos commentaires, je vous recommande d'examiner deux corrélations. Le premier serait les périodes de temps communes aux deux sociétés. Donc, si l'on était environ 2 ans plus tôt, il vous suffit de supprimer ces données et de regarder le reste. La seconde serait les périodes de temps relatives. Dans le second, vous ne corrélez pas le temps réel mais le temps mesuré depuis que l'entreprise est devenue publique.

Les premiers seraient fortement influencés par les forces économiques générales partagées au cours de la même période. Ces derniers seraient influencés par les propriétés partagées par les entreprises au fur et à mesure de leur évolution après l'introduction en bourse.

— John
source

0

Une autre façon de résoudre un tel problème consiste à imputer les données manquantes pour les séries plus courtes en utilisant un modèle de série chronologique qui peut ou non avoir un sens dans un contexte particulier.

Dans votre contexte, imputer les cours des actions dans le passé signifierait que vous posez la question contrefactuelle suivante: quel serait le cours des actions de la société X si elle avait été rendue publique n années auparavant, au lieu de quand elle est devenue publique? Une telle imputation de données pourrait potentiellement être effectuée en tenant compte des cours des actions des sociétés liées, des tendances générales du marché, etc. Mais une telle analyse peut ne pas avoir de sens ou ne pas être nécessaire compte tenu des objectifs de votre projet.

0

Eh bien, cela dépend beaucoup des hypothèses que vous faites. Si vous supposez que les données sont stationnaires, plus de données pour la première série vous donneront une meilleure estimation de sa volatilité. Cette estimation peut être utilisée pour améliorer l'estimation de corrélation. Donc, l'énoncé suivant est incorrect:

"L'histoire du prix de Y avant que X ne soit rendu public est inutile pour évaluer leur corrélation ultérieure"

J'y ai pensé. En théorie, cela peut fonctionner, mais sera très peu fiable, il vaut donc mieux éviter.

— kjetil b halvorsen

-1

Cela ressemble à un problème pour un algorithme d'apprentissage automatique. Par conséquent, j'essaierais de comprendre un ensemble de fonctionnalités qui décrivent un certain aspect de la tendance et de m'y entraîner. L'ensemble de la théorie de l'apprentissage automatique est un peu trop complexe pour cette boîte à réponses, mais il serait utile que vous y lisions.

Mais honnêtement, je pense que cela existe déjà. Là où l'argent peut être gagné, les gens y mettent leur esprit.

— Hans c. Arsch
source