La corrélation de Pearson est utilisée pour examiner la corrélation entre les séries ... mais étant une série chronologique, la corrélation est examinée à travers différents décalages - la fonction de corrélation croisée .
La corrélation croisée est affectée par la dépendance au sein d'une série, de sorte que, dans de nombreux cas, la dépendance au sein d'une série doit être supprimée en premier. Donc, pour utiliser cette corrélation, plutôt que de lisser la série, il est en fait plus courant (parce que significatif) de regarder la dépendance entre les résidus - la partie approximative qui reste après la recherche d’un modèle approprié pour les variables.
Vous voudrez probablement commencer par quelques ressources de base sur les modèles de séries chronologiques avant de tenter de déterminer si une corrélation de Pearson sur une série lissée (vraisemblablement) non stationnaire et lissée est interprétable.
En particulier, vous voudrez probablement examiner le phénomène ici . [Dans les séries chronologiques, on parle parfois de corrélation fallacieuse , bien que l'article de Wikipédia sur la corrélation fallacieuse envisage de manière étroite l'utilisation du terme d'une manière qui semble exclure cette utilisation du terme. Vous trouverez probablement plus sur les questions abordées ici par la recherche régression fallacieuse à la place.]
[Modifier - le paysage Wikipedia continue de changer; le para ci-dessus. devrait probablement être révisé pour refléter ce qui est là maintenant.]
par exemple voir des discussions
http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (la citation d'ouverture de Yule, dans un document présenté en 1925 mais publié l'année suivante, résume assez bien le problème)
Christos Agiakloglou et Apostolos Tsimpanos, Corrélations fallacieuses pour les AR stationnaires (1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (cela montre que vous pouvez même obtenir le problème entre les séries stationnaires, d’où la tendance à pré-blanchir)
La référence classique de Yule, (1926) [1] mentionnée ci-dessus.
Vous pouvez également trouver la discussion ici utile, ainsi que la discussion ici
-
Utiliser la corrélation de Pearson de manière significative entre les séries chronologiques est difficile et parfois étonnamment subtile.
J'ai cherché une corrélation fallacieuse, mais je me moque de savoir si ma série A est la cause de ma série B ou inversement. Je veux seulement savoir si vous pouvez apprendre quelque chose au sujet de la série A en regardant ce que fait la série B (ou vice versa). En d'autres termes - ont-ils une corrélation.
Prenez note de mon commentaire précédent sur l’utilisation étroite du terme «corrélation parasite» dans l’article de Wikipedia.
Le point sur la corrélation parasite est que la série peut apparaître corrélée, mais la corrélation elle-même n’a pas de sens. Prenons deux personnes qui lancent deux pièces distinctes en comptant le nombre de têtes jusqu’à présent moins le nombre de queues jusqu’à la valeur de leur série.
(Ainsi, si la personne 1 jette elle a 3-1 = 2 pour la valeur du 4ème pas de temps et la série passe à )HTHH ...1 , 0 , 1 , 2 , . . .
De toute évidence, il n'y a aucun lien entre les deux séries. Il est clair que ni l'un ni l'autre ne peut vous dire la première chose à propos de l'autre!
Mais regardez le type de corrélation que vous obtenez entre des paires de pièces:
Si je ne vous disais pas ce que c'était, et que vous preniez n'importe quelle paire de ces séries, ce serait une corrélation impressionnante, n'est-ce pas?
Mais ils sont tous vides de sens . Totalement faux. Aucune des trois paires n’a de relation plus positive ou négative entre elles que les autres, c’est son bruit simplement cumulé . Le caractère fallacieux ne concerne pas seulement la prédiction, mais la notion même de considérer l'association entre séries sans tenir compte de la dépendance intra-série est mal placée.
Tout ce que vous avez ici est une dépendance intra-série . Il n'y a pas de relation transversale réelle entre les séries.
Une fois que vous avez traité correctement le problème qui rend ces séries auto-dépendantes - elles sont toutes intégrées ( marches aléatoires de Bernoulli ), vous devez donc les différencier - l'association "apparente" disparaît (la plus grande corrélation absolue en série croisée des trois est 0,048).
Ce qui vous dit est la vérité - l'association apparente est une simple illusion provoquée par la dépendance au sein d'une série.
Votre question demandait "comment utiliser correctement la corrélation de Pearson avec les séries chronologiques" - comprenez donc bien: s'il existe une dépendance au sein d'une série et que vous ne la traitez pas d'abord, vous ne l'utiliserez pas correctement.
De plus, le lissage ne réduira pas le problème de la dépendance en série; Bien au contraire, cela aggrave encore la situation! Voici les corrélations après le lissage (loess par défaut smooth - de la série par rapport à l'indice - effectué dans R):
coin1 coin2
coin2 0.9696378
coin3 -0.8829326 -0.7733559
Ils sont tous plus éloignés de 0. Ce ne sont toujours que du bruit dénué de sens , bien que ce soit maintenant un bruit adouci et cumulé. (En lissant, nous réduisons la variabilité de la série que nous avons mise dans le calcul de la corrélation, ce qui explique peut-être pourquoi la corrélation augmente.)
[1]: Yule, GU (1926) "Pourquoi avons-nous parfois des corrélations insensées entre les séries temporelles?" J.Roy.Stat.Soc. , 89 , 1 , pp. 1-63