Les calculs nécessaires pour obtenir un résultat exact sont compliqués, mais nous pouvons dériver une valeur exacte pour le coefficient de corrélation au carré attendu sans douleur. Il aide à expliquer pourquoi une valeur proche de continue d' afficher et pourquoi augmenter la longueur n de la marche aléatoire ne changera pas les choses.1/2n
Il existe un risque de confusion concernant les termes standard. La corrélation absolue mentionnée dans la question, ainsi que les statistiques qui la composent - variances et covariances - sont des formules que l'on peut appliquer à n'importe quelle paire de réalisations de marches aléatoires. La question concerne ce qui se passe quand on regarde de nombreuses réalisations indépendantes. Pour cela, nous devons prendre des attentes sur le processus de marche aléatoire.
(Modifier)
Avant de poursuivre, je souhaite partager avec vous quelques informations graphiques. Une paire de marches aléatoires indépendantes est une marche aléatoire en deux dimensions. Nous pouvons tracer le chemin qui passe de chacun ( X t , Y t ) à X t + 1 , Y t + 1 . Si ce chemin tend vers le bas (de gauche à droite, tracé sur les axes XY habituels), alors pour étudier la valeur absolue de la corrélation , nions toutes les valeurs Y. Tracez les marches sur des axes dimensionnés pour donner le X et(X,Y)(Xt,Yt)Xt+1,Yt+1YX valeurs égales etécartstypes superposer les moindres carrés correspondent de Y à X . Les pentes de ces droites seront les valeurs absolues des coefficients de corrélation, toujours comprises entre 0 et 1 .YYX01
Cette figure montre ces promenades, chacune de longueur 960 (avec des différences normales normales). De petits cercles ouverts marquent leurs points de départ. Les cercles noirs marquent leur emplacement final.15960
Ces pentes ont tendance à être assez grandes. Des diagrammes de dispersion parfaitement aléatoires de ce nombre de points auraient toujours des pentes très proches de zéro. Si nous devions décrire les modèles qui émergent ici, nous pourrions dire que la plupart des promenades aléatoires 2D migrent progressivement d'un endroit à un autre. (Ce ne sont pas nécessairement leurs emplacements de départ et de fin, cependant!) Environ la moitié du temps, alors, cette migration se produit dans une direction diagonale - et la pente est donc élevée.
Le reste de cet article esquisse une analyse de cette situation.
Une marche aléatoire est une séquence de sommes partielles de ( W 1 , W 2 , … , W n ) où les W i sont des variables à moyenne nulle indépendantes et identiquement distribuées. Soit leur variance commune σ 2 .(Xi)(W1,W2,…,Wn)Wiσ2
Dans une réalisation d'une telle marche, la "variance" serait calculée comme s'il s'agissait d'un ensemble de données:x=(x1,…,xn)
V(x)=1n∑(xi−x¯)2.
Une bonne façon de calculer cette valeur est de prendre la moitié de la moyenne de toutes les différences au carré:
V(x)=1n(n−1)∑j>i(xj−xi)2.
xXn
E(V(X))=1n(n−1)∑j>iE(Xj−Xi)2.
Les différences sont des sommes de variables iid,
Xj−Xi=Wi+1+Wi+2+⋯+Wj.
WkWkσ2
E((Wi+1+Wi+2+⋯+W2j))=(j−i)σ2.
Il s'ensuit facilement que
E(V(X))=1n(n−1)∑j>i(j−i)σ2=n+16σ2.
The covariance between two independent realizations x and y--again in the sense of datasets, not random variables--can be computed with the same technique (but it requires more algebraic work; a quadruple sum is involved). The result is that the expected square of the covariance is
E(C(X,Y)2)=3n6−2n5−3n2+2n480n2(n−1)2σ4.
Consequently the expectation of the squared correlation coefficient between X and Y, taken out to n steps, is
ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n3−2n2+3n−2n3−n.
Although this is not constant, it rapidly approaches a limiting value of 9/40. Its square root, approximately 0.47, therefore approximates the expected absolute value of ρ(n) (and underestimates it).
I am sure I have made computational errors, but simulations bear out the asymptotic accuracy. In the following results showing the histograms of ρ2(n) for 1000 simulations each, the vertical red lines show the means while the dashed blue lines show the formula's value. Clearly it's incorrect, but asymptotically it is right. Evidently the entire distribution of ρ2(n) is approaching a limit as n increases. Similarly, the distribution of |ρ(n)| (which is the quantity of interest) will approach a limit.
This is the R
code to produce the figure.
f <- function(n){
m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
u <- matrix(rnorm(n*n.sim), nrow=n)
v <- matrix(rnorm(n*n.sim), nrow=n)
x <- apply(u, 2, cumsum)
y <- apply(v, 2, cumsum)
sim <- rep(NA_real_, n.sim)
for (i in 1:n.sim)
sim[i] <- cor(x[,i], y[,i])^2
z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
abline(v=mean(sim), lwd=2, col="Red")
abline(v=f(n), col="Blue", lwd=2, lty=3)
}