Calcul de l'espérance mathématique du coefficient de corrélation ou


8

Je republie une question de math.stackexchange.com , je pense que la réponse actuelle dans math.se n'est pas correcte.

Sélectionnez nombres dans un ensemble , est le ème nombre sélectionné et est le rang de dans les nombres. La sélection est sans remplacement. est toujours inférieur à . Le rang est l'ordre du nombre a après le tri des nombres dans l'ordre croissant.n{1,2,...,U}yiixiyinnUn

Nous pouvons obtenir points de données , et une ligne d'ajustement pour ces points de données peut être trouvée par régression linéaire. (coefficient de corrélation) est la qualité de la droite d'ajustement, je veux calculer ou (corrélation de détermination) .n(x1,y1),(x2,y2),...,(xn,yn)rxyE(rxy)E(rxy2)

Si le ne peut pas être calculé, une estimation ou une borne inférieure est toujours OK.E[rxy]

Mise à jour: En calculant le coefficient de corrélation de l'échantillon à l'aide de données générées de manière aléatoire, nous pouvons voir que est assez proche de 1, donc je veux le prouver à partir de la vue théorique, ou théoriquement dire que les données générées par la méthode ci-dessus sont très linéaire.rxy

Mise à jour: est-il possible d'obtenir la distribution du coefficient de corrélation d'échantillon?


Veuillez poster un lien vers la question math.SE. Habituellement, il n'est pas bon de procéder à une publication croisée à moins qu'un délai significatif ne soit écoulé.
cardinal

Le même numéro peut-il être sélectionné deux fois? N est-il inférieur ou supérieur à U?
Nick Sabbe

1
Voici la question précédente sur math.SE: math.stackexchange.com/questions/32569/...
cardinal

@Nick Sabbe La sélection est sans remplacement. n est toujours plus petit que U.
Fan Zhang

1
@Fan Les techniques applicables incluraient des formes quadratiques dans des variables aléatoires ( stats.stackexchange.com/questions/9220 ), la "méthode delta" pour estimer les moments des fonctions des variables aléatoires; distributions des statistiques d'ordre pour les variables uniformes; la relation entre les écarts entre les variables uniformes et la distribution exponentielle, et peut-être même les méthodes de point de selle, les approximations normales, le théorème central limite, etc.
whuber

Réponses:


1

Réorganiser le problème en termes de nouvelles variables, de sorte que . Nous avons alors , comme l'a souligné @whuber dans les commentaires. Ainsi vous régressez effectivement sur , et . Ainsi, si nous pouvons calculer la distribution marginale de et montrer qu'elle est fondamentalement linéaire en le problème est fait et nous aurons .1z1<z2<<znU(xi,yi)=(xi,zxi)zjjrxy=rxzzjjrxy1

Nous avons d'abord besoin de la distribution conjointe pour . C'est assez simple, une fois que vous avez la solution, mais je ne l'ai pas trouvée avant de faire le calcul. Juste une brève leçon sur le calcul des mathématiques - je vais donc d'abord présenter les mathématiques, puis la réponse facile.z1,,zn

Maintenant, la distribution conjointe d'origine est p(y1,,yn)1. Changer les variables simplement réétiqueter les choses pour des probabilités discrètes, et donc la probabilité est toujours constante. Cependant, l'étiquetage n'est pas 1 pour 1, donc nous ne pouvons pas simplement écrirep(z1,,zn)=(Un)!U!. Au lieu de cela, nous avons

p(z1,,zn)=1C1z1<z2<<znU

Et nous pouvons trouver C par normalisation

C=zn=nUzn1=n1zn1z2=2z31z1=1z21(1)=zn=nUzn1=n1zn1z2=2z31(z21)
=zn=nUzn1=n1zn1z3=2z41(z31)(z32)2=zn=nUz4=4z51(z41)(z42)(z43)(2)(3)
=zn=nUzn1=n1zn1zj=jzj+11(zj1j1)=(Un)

Ce qui montre que le rapport de réétiquetage est égal à - pour chacun il y a . Cela a du sens car toute permutation des étiquettes sur conduit au même ensemble de valeurs classées . Maintenant, la distribution marginale , nous répétons ci-dessus mais avec la somme sur supprimée, et une plage de sommation différente pour le reste, à savoir, les minimums changent de à , et nous obtenons:(Un)!U!(Un)=1n!(z1,,zn)n! (y1,,yn)yiziz1z1(2,,n)(z1+1,,z1+n1)

p(z1)=zn=z1+n1Uzn1=z1+n2zn1z2=z1+1z31p(z1,z2,,zn)=(Uz1n1)(Un)

Avec support z1{1,2,,U+1n}. Cette forme, combinée avec un peu d'intuition, montre que la distribution marginale de toutzj peut être motivée par:

  1. choisir j1 valeurs ci-dessous zj, ce qui peut être fait en (zj1j1) (si zjj);
  2. choisir la valeur zj, ce qui peut être fait dans un sens; et
  3. choisir nj valeurs ci-dessus zj ce qui peut être fait en (Uzjnj) (si zjU+jn)

Cette méthode de raisonnement généralisera facilement les distributions conjointes, telles que p(zj,zk)(qui peut être utilisé pour calculer la valeur attendue de la covariance de l'échantillon si vous le souhaitez). Nous avons donc:

p(zj)=(zj1j1)(Uzjnj)(Un)jzjU+jnp(zj,zk)=(zj1j1)(zkzj1kj1)(Uzknk)(Un)jzjzk+jkU+jn

Maintenant, le marginal est le pdf d'une distribution hypergéométrique négative avec des paramètresk=j,r=n,N=U(en termes de notation de l'article). Maintenant, c'est clair pas linéaire exactementj, mais l'attente marginale pour zj est

E(zj)=jU+1n+1

C'est en effet linéaire dans j, et vous vous attendez à un coefficient bêta de U+1n+1 de la régression, et de l'ordonnée à zéro.

MISE À JOUR

J'ai arrêté ma réponse un peu avant. Nous avons maintenant terminé, espérons-le, une réponse plus complète

Location j¯=n+12, et z¯=1nj=1nzj, le carré attendu de la covariance de l'échantillon entre j et zj est donné par:

E[sxz2]=E[1nj=1n(jj¯)(zjz¯)]2
=1n2[j=1n(jj¯)2E(zj2)+2k=2nj=1k1(jj¯)(kj¯)E(zjzk)]

Alors nous avons besoin E(zj2)=V(zj)+E(zj)2=Aj2+Bj, où A=(U+1)(U+2)(n+1)(n+2) et B=(U+1)(Un)(n+1)(n+2)(en utilisant la formule dans le fichier pdf). Ainsi, la première somme devient

j=1n(jj¯)2E(zj2)=j=1n(j22jj¯+j¯2)(Aj2+Bj)
=n(n1)(U+1)120(U(2n+1)+(3n1))

Nous avons aussi besoin de E(zjzk)=E[zj(zkzj)]+E(zj2).

E[zj(zkzj)]=zk=kU+knzj=jzk+jkzj(zkzj)p(zj,zk)
=j(kj)zk=kU+knzj=jzk+jk(zjj)(zkzjkj)(Uzknk)(Un)=j(kj)zk=kU+kn(zk+1k+1)(U+1(zk+1)nk)(Un)
=j(kj)(U+1n+1)(Un)=j(kj)U+1n+1
E(zjzk)=jkU+1n+1+j2(U+1)(Un)(n+1)(n+2)+j(U+1)(Un)(n+1)(n+2)

Et la deuxième somme est:

2k=2nj=1k1(jj¯)(kj¯)E(zjzk)
=n(U+1)(n1)720(n+2)(6(Un)(n32n29n2)+(n+2)(5n324n235n+6))

Et donc après quelques manipulations assez fastidieuses, vous obtenez la valeur attendue de la covariance au carré de:

E[sxz2]=(n1)(n2)U(U+1)120(U+1)(n1)(n3+2n2+11n+22)720(n+2)

Maintenant, si nous avons U>>n, le premier terme domine tel quel O(U2n2), tandis que le deuxième terme est O(Un3). On peut montrer que le terme dominant est bien approximé parE[sx2sz2], et nous avons une autre raison théorique pour laquelle la corrélation de Pearson est très proche de 1 (au-delà du fait que E(zj)j).

Maintenant, la variance attendue de l'échantillon de j est juste la variance de l'échantillon, qui est sx2=1nj=1n(jj¯)2=(n+1)(n1)12. La variance d'échantillon attendue pourzj est donné par:

E[sz2]=E[1nj=1n(zjz¯)2]=1nj=1nE(zj2)[1nj=1nE(zj)]2
=A(n+1)(2n+1)6+B(n+1)2(U+1)24
=(U+1)(U1)12

Combiner tout ensemble et noter que E[sx2sz2]=sx2E[sz2], on a:

E[sx2sz2]=(n+1)(n1)(U+1)(U1)144(n1)(n2)U(U+1)120E[sxz2]

C'est à peu près la même chose que E[rxz2]1


Je comprends votre réponse, et ma question est de savoir comment obtenir l'attente du coefficient de corrélation de votre état actuel.
Fan Zhang

Je suis désolé de ne voir que la réponse aujourd'hui. Je pense qu'une chose devrait être clarifiée pourquoi quandE[sx2sz2]E[sxz2], puis E[rxz2]1.
Fan Zhang

Je pense que la dernière étape est mauvaise. E [X / Y] n'est pas égal à E [X] / E [Y].
Fan Zhang

@FanZhang - La dernière étape est approximativement correcte. En effet, nous pouvons étendreg(X,Y)=XY à la première commande (E[X],E[Y]). Et nous obtenonsXYE[X]E[Y]+(XE[X])1E[Y](YE[Y])E[X]E[Y]2. Parce queE(XE[X])=0 pour toute variable aléatoire dont l'espérance existe, on obtient E(XY)E[X]E[Y].
Probabilislogic

Je vous remercie. Et comment s'appelle ce genre d'approximation?
Fan Zhang

3

Si vous voulez seulement montrer rxy2 doit être proche de 1, et calculer une limite inférieure pour cela, c'est simple, car cela signifie pour donné U et nil suffit de maximiser la variance des résidus. Cela peut se faire de quatre manières exactement symétriques. Les deux extrêmes (corrélations les plus basses et les plus élevées possibles) sont illustrés pourU=20,n=9.

Tracés de corrélation extrême pour U = 20, n = 9

Pour les grandes valeurs de U et des valeurs appropriées de n, rxy2 peut en fait se rapprocher de 0. Par exemple, avec n=100 et de très grandes valeurs de Un, rxy20.03 au pire des cas.


Nous essayons donc de montrer E(rxy2)est proche de 1 (ou que nous pouvons nous attendre à trouver presque une ligne droite) [Je travaille sur ce problème avec Zhang Fan]. Tandis querxy2mauvais dans certains cas, il devrait y avoir relativement peu de ces cas. Un espoir pour résoudre ce problème est donc de limiter le nombre de cas où, par exemple,rxy20.99(ou quelque autre lié).
Douglas S.Stones

J'espère que 0.99 devrait être une limite raisonnable à considérer. Par exemple, si nous calculons quelques exemples dans R, nous pouvons toujours obtenir des cor (x, y) très proches de 1. Par exemple, 0,9994561 est un résultat typique renvoyé par: m <- 10 ^ 5; n <-10 ^ 3; liste <- échantillon (1: m, taille = n, remplacer = FAUX); list <- sort (liste); cor (liste, 1: n);
Douglas S. Stones

@Douglas Cela suggère ce qui pourrait être une simplification considérable: en prenant un objectif comme 0.99, vous pouvez convertir le rapport des formes quadratiques apparaissant dans rxy2dans une différence (en effaçant le dénominateur), puis étudiez les chances que la différence soit positive. Alors maintenant, vous regardez la distribution d'une forme quadratique sous des permutations uniformément aléatoires: c'est un problème accessible.
whuber

@Douglas, @Fan Nous pouvons aussi faire quelques heuristiques: asymptotiquement, le yi semblera uniforme, indiquant r21 comme U. Considérons la statistique de Kolmogorov-SmirnovD, par exemple: utiliser cela comme limite supérieure pour les résidus montre qu'il est proportionnel à une surestimation (brute) de 1r2. Doncr21 au moins aussi vite que D0.
whuber

@whuber Avez-vous une description plus détaillée de la statistique D de Kolmogorov-Smirnov?
Fan Zhang
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.