Si nous avons 2 variables aléatoires normales non corrélées nous pouvons créer 2 variables aléatoires corrélées avec la formule
puis aura une corrélation ρ avec X 1 .
Quelqu'un peut-il expliquer d'où vient cette formule?
Si nous avons 2 variables aléatoires normales non corrélées nous pouvons créer 2 variables aléatoires corrélées avec la formule
puis aura une corrélation ρ avec X 1 .
Quelqu'un peut-il expliquer d'où vient cette formule?
Réponses:
Supposons que vous vouliez trouver une combinaison linéaire de et X 2 telle que
Notez que si vous multipliez à la fois et β par la même constante (non nulle), la corrélation ne changera pas. Ainsi, nous allons ajouter une condition pour conserver la variance: var ( α X 1 + β X 2 ) = var
Cela équivaut à
Assuming both random variables have the same variance (this is a crucial assumption!) (), we get
There are many solutions to this equation, so it's time to recall variance-preserving condition:
And this leads us to
UPD. Regarding the second question: yes, this is known as whitening.
The equation is a simplified bivariate form of Cholesky decomposition. This simplified equation is sometimes called the Kaiser-Dickman algorithm (Kaiser & Dickman, 1962).
Note that and must have the same variance for this algorithm to work properly. Also, the algorithm is typically used with normal variables. If or are not normal, might not have the same distributional form as .
References:
Kaiser, H. F., & Dickman, K. (1962). Sample and population score matrices and sample correlation matrices from an arbitrary population correlation matrix. Psychometrika, 27(2), 179-182.
Correlation coefficient is the between two series if they are treated as vectors (with data point being dimension of a vector). The above formula simply creates a decomposition of a vector into its , components (with respect to ).
if ,
then .
Because if are uncorrelated, the angle between them is a right angle (ie, they can be considered as orthogonal, albeit non-normalized, basis vectors ).