La version simple est que deux variables qui ont tendance à changer dans une direction au fil du temps semblent être corrélées, qu'il y ait ou non un lien entre elles. Considérez les variables suivantes:
set.seed(1)
time = seq(from=1, to=100, by=1)
x = .5 + .3*time + rnorm(100)
y1 = 3 + .3*time + rnorm(100)
y2 = 7 + .1*time + .8*x + rnorm(100)
est juste une fonction du temps, tout comme y 1 . y 2 est fonction à la fois du temps et de x . Il s'agit de reconnaître à partir du code qu'il existe réellement une relation entre x et y 2 , et qu'il n'y a pas de relation entre x et y 1 . Regardez maintenant la figure suivante, les trois lignes se ressemblent énormément, n'est-ce pas?xy1y2xxy2xy1

R2xy1R2xy2xy1xy2, alors comment différencier le réel de la simple apparence? C'est là que la différenciation entre en jeu. Pour deux des variables, car elles ont toutes deux tendance à augmenter avec le temps, ce n'est pas très informatif, mais étant donné que l'une augmente de façon spécifique, cela nous indique-t-il combien l'autre augmente? La différenciation nous permet de répondre à cette question. Notez les deux figures suivantes, les diagrammes de dispersion que j'ai faits après avoir différencié les trois variables.


xy2R2=.43xy1R2=.07R2
Quelques autres points: Dans les figures, je tiens à noter qu'il s'agit de changements simultanés. Il n'y a rien de mal à cela, et cela découle de la façon dont j'ai réglé le problème, mais généralement les gens sont intéressés par les effets avec un certain retard. (C'est-à-dire que le changement d'une chose à un moment donné entraîne un changement dans quelque chose d'autre plus tard.) Deuxièmement, vous mentionnez prendre le journal d'une de vos séries. La prise du journal fait simplement passer vos données des niveaux aux taux. Et donc, quand vous faites une différence, vous regardez les changements de taux plutôt que les changements de niveaux. C'est très courant, mais je n'ai pas inclus cet élément dans ma démonstration; c'est orthogonal aux questions que j'ai discutées. Enfin, je tiens à reconnaître que les données de séries chronologiques sont souvent plus compliquées que ne le laisse supposer ma démonstration.