Qu'est-ce qu'une donnée liée dans le contexte d'un coefficient de corrélation de rang?


16

Je ne suis pas dans le domaine des statistiques.

J'ai vu le mot «données liées» en lisant les coefficients de corrélation de rang.

  • Qu'est-ce que les données liées?
  • Qu'est-ce qu'un exemple de données liées?

Réponses:


5

Cela signifie des données qui ont la même valeur; par exemple, si vous avez 1,2,3,3,4 comme jeu de données, les deux 3 sont des données liées. Si vous avez 1,2,3,4,5,5,5,6,7,7 comme ensemble de données, les 5 et les 7 sont des données liées.


14

Les «données liées» apparaissent dans le contexte des tests statistiques non paramétriques basés sur le classement.

Tests non paramétriques : tests qui ne supposent pas une distribution de probabilité particulière, par exemple, ils ne supposent pas une courbe en forme de cloche.

basé sur le classement : une grande classe de tests non paramétriques commence par convertir les nombres (par exemple "3 jours", "5 jours" et "4 jours") en rangs (par exemple "durée la plus courte (3ème)", "durée la plus longue (1er) "," deuxième plus longue durée (2e) "). Une méthode d'essai paramétrique traditionnelle est ensuite appliquée à ces rangs.

Les données liées sont un problème car les nombres identiques doivent maintenant être convertis en rang. Parfois, les rangs sont attribués au hasard, parfois un rang moyen est utilisé. Plus important encore, un protocole pour briser les rangs liés doit être décrit pour la reproductibilité du résultat.


5

Il s'agit simplement de deux valeurs de données identiques, comme observer 7 fois deux fois dans le même ensemble de données.

Cela se produit dans le contexte des méthodes statistiques qui supposent que les données ont une mesure continue et donc identique sont impossibles (ou techniquement, la probabilité des valeurs identiques est nulle). Des complications pratiques surviennent lorsque ces méthodes sont appliquées à des données arrondies ou écrêtées de sorte que des mesures identiques sont non seulement possibles mais assez courantes.


1
Je ne suis pas d'accord avec ce raisonnement, car vous ne pouvez pas dire cela en raison de sa probabilité nulle que cet événement ne se produise jamais. Ce n'est pas un bon raisonnement.
Henry.L

2

La question est d'une importance fondamentale:

Qu'est-ce qu'une observation / données / paire liée?

T+ .

(Je ne pense donc pas que la réponse de @ Ming-Chih Kao soit appropriée en introduisant d'abord des tests non paramétriques. Mais puisque le titre est `` Qu'est-ce que les données liées dans le contexte d'un coefficient de corrélation de rang? '', Je l'achèterai.)

Zje=Xje-Ouije

(Xje,Ouije): (1, -1) (1,2) (1,2) (1, -1) (2,1) (2,1) (2,3) (2,3) (3,2) (3 , 0)

Zje: 2 -1 -1 2 1 1 -1 -1 1 3

Prenez la valeur absolue de ces ZjeC'est pour avoir un rang.

|Zje|: 2 1 1 2 1 1 1 1 1 3

Maintenant, le problème se pose, avec autant de 1 et 2 identiques, comment pouvons-nous faire un classement? Nous leur donnons le terme «lié» pour montrer ce cas. Et par le terme «groupe lié» (qui est une relation équivalente), nous groupons simplement ces observations liées en groupes par leurs valeurs. Dans cet exemple, nous avons 3 groupes liés (pensez pourquoi):{(1,1)(1,1)},{(1,2)(1,2)(2,1)(2,1)(2,3)(2,3)(3,2)},{(3,0)} Attention that the bracket does not mean a set but just a notation.

Let us try the very easy way of doing this, we rank from left to right and give:

Ri: 8 1 2 9 3 4 5 6 7 10

But here again we should ask why so other ranking is not suitable since there is no difference between those identical |Zi|'s, like:

Ri: 8 7 6 9 5 4 3 2 1 10

Therefore we may just take the mean of those identical |Zi|'s and assign again:

Ri: 8 7 6 9 5 4 3 2 1 10

The bold represents the first tied group consists of those |Zi|=1 observations; the italic represents the second tied group consists of those |Zi|=2 observations.

We assign to each of the observation in the first group the rank1++77=4;we assign to each of the observation in the second group the rank8+92=8.5. Therefore we have:

Ri: 8.5 4 4 8.5 4 4 4 4 4 10

This modified the rankings and make each of the tied observation has the same influence in calculating the ranked statistics, thus in the rank test.

What are the solutions to tied observation/data/pair ?

(1)Assign the average rank. This is just what we did above. By assigning the same rank to the tied data in the same group, we make their influence in the ranked test just the same and therefore eliminate the possible inaccuracy caused by tied observations.

(2)Assign the random rank. Just assign ranks randomly to each of the tied group element. The only restriction is that MaxRankfirstgroup<MinRanksecondgroup since if MaxRankfirstgroup>MinRanksecondgroup, that breaks the ranking law; if MaxRankfirstgroup=MinRanksecondgroup, then we have to merge two tied groups into one.

(3)Perturbation of data. This requires very careful consideration about the nature of the data. This works only if the data is not categorical(discrete). In the above example, we can just make a This will put different weights manually to each of the elements in the tied group. For a continuous distribution, for example, it makes little difference if you perturb it in ϵ manner.

(@John D. Cook 's answer is a bit misleading in this way. A better way of saying this point is that when the distribution is continuous, PX=x=0. However, we shall observe ties since our measurement is of limited accuracy, i.e. any sample space in reality is actually finite.) (@quarkdown27 's answer is simple but correct in each word.)

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.