Comment puis-je savoir quand choisir entre Spearman et de Pearson ? Ma variable inclut la satisfaction et les scores ont été interprétés en utilisant la somme des scores. Cependant, ces scores pourraient également être classés.
Comment puis-je savoir quand choisir entre Spearman et de Pearson ? Ma variable inclut la satisfaction et les scores ont été interprétés en utilisant la somme des scores. Cependant, ces scores pourraient également être classés.
Réponses:
Si vous souhaitez explorer vos données, il est préférable de calculer les deux, car la relation entre les corrélations de Spearman (S) et de Pearson (P) donnera des informations. En bref, S est calculé sur les rangs et décrit ainsi les relations monotones tandis que P est sur les valeurs vraies et décrit les relations linéaires.
Par exemple, si vous définissez:
x=(1:100);
y=exp(x); % then,
corr(x,y,'type','Spearman'); % will equal 1, and
corr(x,y,'type','Pearson'); % will be about equal to 0.25
Cela est dû au fait que augmente de manière monotone avec sorte que la corrélation de Spearman est parfaite, mais non linéaire, de sorte que la corrélation de Pearson est imparfaite.
corr(x,log(y),'type','Pearson'); % will equal 1
Faire les deux est intéressant car si vous avez S> P, cela signifie que vous avez une corrélation monotone mais non linéaire. Puisqu'il est bon d'avoir une linéarité dans les statistiques (c'est plus facile), vous pouvez essayer d'appliquer une transformation sur (un tel journal).
J'espère que cela contribuera à faciliter la compréhension des différences entre les types de corrélation.
La réponse la plus courte et la plupart du temps correcte est:
Relation linéaire des repères de Pearson , relation monotone des repères de Spearman (cas de l'infini plus général, mais pour certains compromis de puissance).
Donc, si vous supposez / pensez que la relation est linéaire (ou, dans un cas spécial, que ce sont deux mesures de la même chose, la relation est donc ) et que la situation n’est pas trop mauvaise (vérifiez les autres réponses pour plus de détails), allez avec Pearson. Sinon, utilisez Spearman.
Cela se produit souvent dans les statistiques: diverses méthodes peuvent être appliquées à votre situation et vous ne savez pas laquelle choisir. Vous devez baser votre décision sur les avantages et les inconvénients des méthodes à l’étude et sur les spécificités de votre problème, mais même dans ce cas, la décision est généralement subjective et ne comporte pas de réponse "correcte" convenue. Habituellement, il est judicieux d'essayer autant de méthodes que cela vous semble raisonnable et que votre patience vous permettra de voir lesquelles vous donneront les meilleurs résultats à la fin.
La différence entre la corrélation de Pearson et la corrélation de Spearman est que Pearson est le plus approprié pour les mesures prises à une échelle d' intervalle , alors que le testeur de Spearman est plus approprié pour les mesures prises à des échelles ordinales . Les exemples d'échelles d'intervalle incluent "température en Farenheit" et "longueur en pouces", dans lesquels les unités individuelles (1 ° F, 1 in) sont significatives. Des choses comme les "scores de satisfaction" ont tendance à être du type ordinal car s'il est clair que "5 bonheur" est plus heureux que "3 bonheur", il n'est pas clair si vous pouvez donner une interprétation significative de "1 unité de bonheur". Mais quand vous additionnez De nombreuses mesures de type ordinale, ce que vous avez dans votre cas, vous aboutissez à une mesure qui n'est en réalité ni ordinale ni intervalle, et qui est difficile à interpréter.
Je vous recommanderais de convertir vos scores de satisfaction en scores quantiles , puis de travailler avec les sommes de ceux-ci, car cela vous donnera des données un peu plus faciles à interpréter. Mais même dans ce cas, il n'est pas clair si Pearson ou Spearman serait plus approprié.
J'ai rencontré un cas d'angle intéressant aujourd'hui.
Si nous examinons un très petit nombre d'échantillons, la différence entre Spearman et Pearson peut être dramatique.
Dans le cas ci-dessous, les deux méthodes indiquent une corrélation exactement opposée .
Quelques règles rapides pour décider Spearman vs Pearson:
ps Voici le code R pour reproduire le graphique ci-dessus:
# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3, -2.5,+0.6)
plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")
spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
c("Red line: regression.",
sprintf("Spearman: %.5f",spearman),
sprintf("Pearson: +%.5f",pearson)
))
Tout en souscrivant à la réponse de Charles, je suggère (sur un plan strictement pratique) de calculer les deux coefficients et d'examiner les différences. Dans de nombreux cas, ils seront exactement les mêmes, vous n'avez donc pas à vous inquiéter.
Toutefois, si elles sont différentes, vous devez déterminer si vous avez respecté les hypothèses de Pearsons (variance et linéarité constantes). Si elles ne le sont pas, utilisez plutôt Spearmans.