Réponse courte: Très non robuste. La corrélation est une mesure de la dépendance linéaire , et lorsqu'une variable ne peut pas être écrite comme une fonction linéaire de l'autre (et a toujours la distribution marginale donnée), vous ne pouvez pas avoir une corrélation parfaite (positive ou négative). En fait, les valeurs de corrélations possibles peuvent être sévèrement restreintes.
Le problème est que, bien que la corrélation de la population soit toujours comprise entre et , la plage exacte pouvant être atteinte dépend fortement des distributions marginales. Une preuve et une démonstration rapides:1- 11
Plage de corrélation atteignable
Si a la fonction de distribution et les fonctions de distribution marginales et , il existe des bornes supérieures et inférieures plutôt agréables pour ,
appelés bornes de Fréchet. Ce sont
(Essayez de le prouver, ce n'est pas très difficile.)H F G H H - ( x , y ) ≤ H ( x , y ) ≤ H + ( x , y ) , H - ( x , y )( X, Y)HFgH
H-( x , y) ≤ H( x , y) ≤ H+( x , y) ,
H-( x , y)H+( x , y)= max ( F( x ) + G ( y) - 1 , 0 )= min ( F( x ) , G ( y) ) .
Les bornes sont elles-mêmes des fonctions de distribution. Soit une distribution uniforme. La borne supérieure est la fonction de distribution de et la borne inférieure est la fonction de distribution de .( X , Y ) = ( F - ( U ) , G - ( U ) ) ( F - ( - U ) , G - ( 1 - U ) )U( X, Y) = ( F-( U) , G-( U) )( F-( - U) , G-( 1 - U) )
Maintenant, en utilisant cette variante sur la formule de la covariance,
nous voyons que nous obtenons la corrélation maximale et minimale lorsque est égal à et , respectivement, c'est-à-dire lorsque est a (respectivement positif ou négatif, ) fonction monotone de .
Cov( X, Y) = ∬H( x , y) - F( x ) G ( y) dx dy,
HH+H-OuiX
Exemples
Voici quelques exemples (sans preuves):
Lorsque et sont normalement distribués, on obtient le maximum et minimum lorsque a la distribution normale habituelle où deux variables est écrit en fonction linéaire de . Autrement dit, nous obtenons le maximum pour
Ici, les limites sont (bien sûr) et , quels que soient les moyens et les variances de etXOui( X, Y)OuiX
Oui= μOui+ σOuiX- μXσX.
- 11XOui
Lorsque et ont des distributions lognormales, la borne inférieure n'est jamais atteignable, car cela impliquerait que pourrait être écrit pour certains et positif , et ne peut jamais être négatif. Il existe des formules (légèrement laides) pour les limites exactes, mais permettez-moi de donner un cas particulier. Lorsque et ont des distributions lognormales standard (ce qui signifie que lorsqu'elles sont exponentiées, elles sont normales normales), la plage atteignable est . (En général, la limite supérieure est également limitée.)Y Y Y = a - b X a b Y X Y [ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]XOuiOuiOui= a - b XunebOuiXOui[ - 1 / e , 1 ] ≈ [ - 0,37 , 1 ]
Lorsque a une distribution normale standard et a une distribution lognormale standard, les limites de corrélation sont
Y ± 1XOui
± 1e - 1----√≈ 0,76.
Notez que toutes les limites concernent la corrélation de la population . La corrélation d'échantillon peut facilement s'étendre en dehors des limites, en particulier pour les petits échantillons (exemple rapide: taille d'échantillon de 2).
Estimation des bornes de corrélation
Il est en fait assez facile d'estimer les limites supérieures et inférieures de la corrélation si vous pouvez simuler à partir des distributions marginales. Pour le dernier exemple ci-dessus, nous pouvons utiliser ce code R:
> n = 10^5 # Sample size: 100,000 observations
> x = rnorm(n) # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769
Si nous ne disposons que de données réelles et ne connaissons pas les distributions marginales, nous pouvons toujours utiliser la méthode ci-dessus. Ce n'est pas un problème que les variables soient dépendantes tant que les paires d' observations sont dépendantes. Mais cela aide d'avoir de nombreuses paires d'observation.
Transformer les données
Il est bien sûr possible de transformer les données à distribuer (marginalement) normalement puis de calculer la corrélation sur les données transformées. Le problème est celui de l'interprétabilité. (Et pourquoi utiliser la distribution normale au lieu d'une autre répartition où peut être une fonction linéaire de ?) Pour les données qui sont à deux variables normalement distribuées, la corrélation a une interprétation bien (sa place est la variance d'une variable expliquée par l'autre ). Ce n'est pas le cas ici.XOuiX
Ce que vous faites vraiment ici, c'est créer une nouvelle mesure de dépendance qui ne dépend pas des distributions marginales; c'est-à-dire que vous créez une mesure de dépendance basée sur la copule . Il existe déjà plusieurs de ces mesures, le ρ de Spearman et le τ de Kendall étant les plus connus. (Si vous êtes vraiment intéressé par les concepts de dépendance, ce n'est pas une mauvaise idée d'examiner les copules.)
En conclusion
Quelques réflexions et conseils finaux: Le simple fait de regarder la corrélation a un gros problème: cela vous fait arrêter de penser. En regardant les diagrammes de dispersion, d'autre part, fait souvent , vous commencez à penser. Mon conseil principal serait donc d'examiner les diagrammes de dispersion et d'essayer de modéliser explicitement la dépendance.
Cela dit, si vous avez besoin d'une mesure simple de type corrélation, j'utiliserais simplement le ρ de Spearman (et l'intervalle de confiance et les tests associés). Sa portée n'est pas restreinte. Mais soyez très conscient de la dépendance non monotone. L' article de Wikipédia sur la corrélation contient quelques bons graphiques illustrant les problèmes potentiels.