Si la régression linéaire est liée à la corrélation de Pearson, existe-t-il des techniques de régression liées aux corrélations de Kendall et Spearman?

27

Peut-être que cette question est naïve, mais:

Si la régression linéaire est étroitement liée au coefficient de corrélation de Pearson, existe-t-il des techniques de régression étroitement liées aux coefficients de corrélation de Kendall et Spearman?

— Miroslav Sabo
source

3

Comme exemple simple où vous avez une variable explicative et une variable dépendante: Une régression linéaire des rangs de

et

donnerait le coefficient de corrélation de Spearman comme coefficient de régression. Et dans ce cas,

et

sont interchangeables dans la régression.

x

$x$

y

$y$

x

$x$

y

$y$

— COOLSerdash

2

Juste quelques réflexions. Le

de Kendall et le

de Spearman sont tous deux des coefficients de corrélation basés sur les rangs. La relation recherchée entre

et

devrait alors impliquer leurs rangs. Cependant, le calcul des rangs introduit une dépendance entre les observations, qui à son tour impose une dépendance entre les termes d'erreur, éliminant la régression linéaire. Cependant, dans un contexte différent, la modélisation de la structure de dépendance entre

et

avec des copules rendrait possible un lien avec

de Kendall et / ou

de Spearman , selon le choix de la copule.

τ

$\tau$

ρ

$\rho$

x

$x$

y

$y$

x

$x$

y

$y$

τ

$\tau$

ρ

$\rho$

— QuantIbex

1

@QuantIbex cette dépendance implique-t-elle nécessairement

?

E [ε_{i} ε_{j}] \neq 0

$E[\varepsilon_i\varepsilon_j]\neq 0$

— shadowtalker

21

Il existe un moyen très simple d'utiliser presque toutes les mesures de corrélation pour ajuster les régressions linéaires et qui reproduit les moindres carrés lorsque vous utilisez la corrélation de Pearson.

Considérons que si la pente d'une relation est , la corrélation entre et devrait être de . $\beta$ $y-\beta x$ $x$ $0$

En effet, si c'était autre chose que , il y aurait une relation linéaire non capturée - c'est ce que la mesure de corrélation prendrait. $0$

On pourrait donc estimer la pente en trouvant la pente, qui fait que la corrélation d' échantillon entre et soit . Dans de nombreux cas - par exemple lors de l'utilisation de mesures basées sur le classement - la corrélation sera une fonction échelonnée de la valeur de l'estimation de la pente, il peut donc y avoir un intervalle où elle est nulle. Dans ce cas, nous définissons normalement l'estimation de l'échantillon comme étant le centre de l'intervalle. Souvent, la fonction pas à pas passe de supérieur à zéro à inférieur à zéro à un moment donné, et dans ce cas, l'estimation se situe au point de saut. $\tilde{\beta}$ $y-\tilde{\beta} x$ $x$ $0$

Cette définition fonctionne, par exemple, avec toutes sortes de corrélations basées sur le classement et robustes. Il peut également être utilisé pour obtenir un intervalle pour la pente (de la manière habituelle - en trouvant les pentes qui marquent la frontière entre juste des corrélations significatives et juste des corrélations insignifiantes).

Cela ne définit bien sûr que la pente; une fois la pente estimée, l'ordonnée à l'origine peut être basée sur une estimation d'emplacement appropriée calculée sur les résidus . Avec les corrélations basées sur le rang, la médiane est un choix courant, mais il existe de nombreux autres choix appropriés. $y-\tilde{\beta}x$

Voici la corrélation tracée par rapport à la pente des cardonnées dans R:

entrez la description de l'image ici

La corrélation de Pearson croise 0 à la pente des moindres carrés, 3,932
La corrélation de Kendall croise 0 à la pente Theil-Sen, 3,667
La corrélation de Spearman croise 0 donnant une pente "Spearman-line" de 3,714

Ce sont les trois estimations de pente pour notre exemple. Maintenant, nous avons besoin d'interceptions. Pour plus de simplicité, je vais simplement utiliser le résiduel moyen pour la première interception et la médiane pour les deux autres (cela n'a pas beaucoup d'importance dans ce cas):

           intercept
 Pearson:  -17.573 *     
 Kendall:  -15.667
 Spearman: -16.285

* (la petite différence par rapport aux moindres carrés est due à une erreur d'arrondi dans l'estimation de la pente; il y a sans doute une erreur d'arrondi similaire dans les autres estimations)

Les lignes ajustées correspondantes (en utilisant le même schéma de couleurs que ci-dessus) sont:

entrez la description de l'image ici

Edit: Par comparaison, la pente de corrélation de quadrant est 3,333

Les pentes de corrélation de Kendall et de corrélation de Spearman sont sensiblement plus robustes aux valeurs aberrantes influentes que les moindres carrés. Voir ici pour un exemple dramatique dans le cas du Kendall.

— Glen_b -Reinstate Monica
source

(+1) Grande explication! Y a-t-il une raison pour laquelle Kendall semble être plus préféré à Spearman dans ce contexte (du moins à en juger par le fait que la corrélation de Kendall correspond à un estimateur de pente qui a un nom, Theil-Sen, alors que Spearman n'en a pas)?

— Amoeba dit Reinstate Monica

4

Il y a un certain nombre de raisons pour lesquelles cela semble être le cas. Premièrement, la ligne Theil-Sen possède un estimateur simplement décrit (médiane des pentes par paires), ce qui manque au Spearman; en petits échantillons, il est très approprié pour le calcul manuel. La corrélation de Kendall approche la normalité plus rapidement et est plus mathématiquement traitable . Voir aussi ici et ici .

— Glen_b -Reinstate Monica

20

$X$ $Y$ $Y$

$\chi^2$

Le modèle PO est un cas particulier d'une famille plus générale de modèles de probabilité cumulative (certains appellent lien cumulatif), y compris les modèles probit, les risques proportionnels et les modèles log-log complémentaires. Pour une étude de cas, voir le chapitre 15 de mes documents .

— Frank Harrell
source

4

Aaron Han (1987 en économétrie) a proposé l'estimateur de corrélation de rang maximum qui correspond aux modèles de régression en maximisant le tau. Dougherty et Thomas (2012 dans la littérature en psychologie) ont récemment proposé un algorithme très similaire. Il y a une abondance de travaux sur la MRC illustrant ses propriétés.

Aaron K. Han, Analyse non paramétrique d'un modèle de régression généralisé: l'estimateur de corrélation de rang maximum, Journal of Econometrics, Volume 35, Numéros 2 à 3, juillet 1987, Pages 303-316, ISSN 0304-4076, http: // dx.doi.org/10.1016/0304-4076(87)90030-3 . ( http://www.sciencedirect.com/science/article/pii/0304407687900303 )

Dougherty, MR et Thomas, RP (2012). Prise de décision robuste dans un monde non linéaire. Psychological review, 119 (2), 321. Extrait de http://damlab.umd.edu/pdf%20articles/DoughertyThomas2012Rev.pdf .

— Rankman
source