Prise de corrélation avant ou après transformation logarithmique des variables


9

Existe-t-il un principe général permettant de calculer la corrélation de Pearson pour deux variables aléatoires X et Y avant de prendre leur transformation logarithmique ou après? Existe-t-il une procédure de test qui est plus appropriée? Ils donnent des valeurs similaires mais différentes, car la transformation logarithmique est non linéaire. Cela dépend-il si X ou Y sont plus proches de la normalité après log? Si oui, pourquoi est-ce important? Et cela signifie-t-il que l'on devrait faire un test de normalité sur X et Y par rapport à log (X) et log (Y) et en fonction de cela décider si pearson (x, y) est plus approprié que pearson (log (x), log ( y))?


@vinux a une bonne réponse et fournit un lien informatif pour comprendre le rôle de la normalité dans la corrélation. Je voulais juste pointer cette question: stats.stackexchange.com/questions/298 qui est très bon pour comprendre ce que les journaux font en régression.
gung - Reinstate Monica

Réponses:


5

Étant donné que et sont des transformations monotones des données et , vous pouvez également choisir d'utiliser la corrélation de rang de Spearman ( ) et ne pas vous soucier de transformer vos données, comme vous obtiendriezJournal(X)Journal(Oui)XOuiρSρS(X,Oui)=ρS(Journal(X),Journal(Oui))


4

La corrélation (Pearson) mesure une relation linéaire entre deux variables continues. Il n'y a pas un tel choix pour (X, Y) ou (log X, log Y). Le diagramme de dispersion des variables peut être utilisé pour comprendre la relation.

Le lien suivant peut répondre concernant le problème de normalité. lien


-3

La corrélation de Pearson est destinée aux tests paramétriques et est plus puissante que les tests non paramétriques. Ainsi, nous choisissons d'utiliser la transformation avant toute procédure non paramétrique. Transformez vos données et obtenez une corrélation pearsons. C'est ça.


@ abi: Selon la taille de l'échantillon, les coefficients de Spearman et de Kendall sont relativement similaires en termes de puissance et de MSE à ceux de Pearson avec des données normalement distribuées, et sont de loin supérieurs avec une contamination même légère des données.
Patrick
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.