Comparaison des listes classées


15

Supposons que deux groupes, comprenant et n 2 classent chacun un ensemble de 25 éléments du plus important au moins important. Quelles sont les meilleures façons de comparer ces classements?n1n2

De toute évidence, il est possible de faire 25 tests de Mann-Whitney U, mais cela entraînerait 25 résultats de tests à interpréter, ce qui peut être trop (et, en utilisation stricte, soulève des questions de comparaisons multiples). Il n'est pas non plus tout à fait clair pour moi que les rangs satisfont à toutes les hypothèses de ce test.

Je serais également intéressé par des pointeurs vers la littérature sur l'évaluation par rapport au classement.

Contexte: Ces 25 éléments concernent tous l'éducation et les deux groupes sont différents types d'éducateurs. Les deux groupes sont petits.

EDIT en réponse à @ttnphns:

Je ne voulais pas comparer le classement total des articles du groupe 1 au groupe 2 - ce serait une constante, comme le souligne @ttnphns. Mais les classements dans le groupe 1 et le groupe 2 seront différents; c'est-à-dire que le groupe 1 peut classer l'élément 1 plus haut que le groupe 2.

Je pourrais les comparer, article par article, obtenir le rang moyen ou médian de chaque article et faire 25 tests, mais je me demandais s'il y avait une meilleure façon de le faire.


1
Si chaque personne a classé 25 éléments, la somme des 25 variables est une constante (325). Cela dit, que voulez-vous dire the best ways to compare these rankings- quel type de différence entre les 2 groupes aimeriez-vous savoir?
ttnphns

2
Peut-être pour calculer la médiane de Kemeny pour chaque groupe? Je ne l'ai pas fait moi-même et je ne sais pas si les 2 résultats pourraient être comparés statistiquement (c'est-à-dire avec inférence à la population).
ttnphns

1
Une autre option pourrait être des mesures répétées de régression ordinale (où l'interaction entre le facteur de groupe et le facteur rm sera votre intérêt); cela peut être fait via le modèle GEE avec distribution multinomiale et lien logit. Mais, encore une fois, parce que la somme de 25 éléments est une constante, je ne peux pas dire maintenant si elle est mathématiquement valide.
ttnphns

2
Je n'ai pas le livre sur moi, mais "Measurement Theory and Practice" de D Hand discute de certaines questions qui ressemblent à ceci. Que voulez-vous en particulier savoir sur la "différence" de classement. Par exemple, ne pourriez-vous pas d'abord créer un classement agrégé pour chaque groupe, puis prendre la corrélation de classement?
Corone

2
@PeterFlom Avez-vous enfin trouvé une solution pour la comparaison des classements? Si oui, cela vous dérangerait-il de l'afficher? :)
Mark Heckmann

Réponses:


6

Sommaire

Je partage mes réflexions dans la section Détails . Je pense qu'ils sont utiles pour identifier ce que nous voulons vraiment réaliser.

Je pense que le principal problème ici est que vous n'avez pas défini ce que signifie une similitude de rang. Par conséquent, personne ne sait quelle méthode de mesure de la différence entre les rangs est la meilleure.

En fait, cela nous laisse choisir de manière ambiguë une méthode basée sur des suppositions.

Ce que je suggère vraiment, c'est de définir d'abord un objectif d'optimisation mathématique. Alors seulement, nous serons sûrs de savoir vraiment ce que nous voulons.

À moins que nous ne le fassions, nous ne savons vraiment pas ce que nous voulons. Nous pourrions presque savoir ce que nous voulons, mais presque savoir savoir .

Mon texte dans Détails est essentiellement une étape vers une définition mathématique de la similitude des rangs . Une fois que nous avons cloué cela, nous pouvons avancer en toute confiance pour choisir la meilleure méthode de mesure de cette similitude.

Détails

Basé sur l'un de vos commentaires:

  • " L'objectif est de voir si les classements des deux groupes diffèrent ", Peter Flom.

Pour répondre à cela en interprétant strictement l'objectif:

  • i{1,2,,25}iaibiaiiabib .
  • Sinon, les rangs ne sont pas différents.

Mais je ne pense pas que vous vouliez vraiment cette interprétation stricte . Par conséquent, je pense que ce que vous vouliez vraiment dire est:

  • ab

ab

n13ab3

Mais cette méthode convient-elle? Pour répondre à cela, regardons-le un peu plus en profondeur:

  • a,b3c,d123a,bc,dc,d

  • Il suppose que le coût de chaque montage est linéaire par rapport au nombre de sauts. Est-ce vrai pour notre domaine d'application? Se pourrait-il qu'une relation logistique soit plus adaptée? Ou exponentielle ?

  • 15 . Est-ce vrai dans votre domaine? Par exemple, si nous classons des livres, est-ce que le fait de ne pas être d'accord sur le classement d'un livre célèbre comme TAOCP est tout aussi important que d'être en désaccord sur le classement d'un livre terrible comme TAOUP ?

Une fois que nous aurons abordé les points ci-dessus et atteint une mesure appropriée de similitude entre deux rangs, nous devrons alors poser des questions plus intéressantes, telles que:

  • Quelle est la probabilité d'observer de telles différences, ou des différences plus extrêmes, si la différence entre les groupes une et b était uniquement dû au hasard?

5

Cela ressemble au «test de classement signé Willcoxon» ( lien wikipedia ). En supposant que les valeurs de vos rangs proviennent du même ensemble (c'est-à-dire [1, 25]), il s'agit d'un test de différence par paires (l'hypothèse nulle étant que ces paires ont été choisies au hasard). NB c'est un score de dis-similitude!

Il y a les deux Ret les Pythonimplémentations liées à cette page wiki.


Intéressant. Je n'avais pas entendu parler d'une différence appariée Wilcoxon.
Peter Flom - Réintègre Monica

3

Attention: c'est une excellente question et je ne connais pas la réponse, c'est donc plutôt "ce que je ferais si je devais":

Dans ce problème, il existe de nombreux degrés de liberté et de nombreuses comparaisons, mais avec des données limitées, il s'agit vraiment d'agréger efficacement les données. Si vous ne savez pas quel test exécuter, vous pouvez toujours "en inventer" un en utilisant des permutations:

Nous définissons d'abord deux fonctions:

  • Fonction de vote : comment marquer les classements afin de pouvoir combiner tous les classements d'un même groupe. Par exemple, vous pouvez attribuer 1 point à l'élément le mieux classé et 0 à tous les autres. Cependant, vous perdriez beaucoup d'informations, alors il vaut peut-être mieux utiliser quelque chose comme: l'élément le mieux classé obtient 1 point, le deuxième 2 points, etc.

  • Fonction de comparaison : comment comparer deux scores agrégés entre deux groupes. Puisque les deux seront un vecteur, prendre une norme appropriée de la différence fonctionnerait.

Procédez maintenant comme suit:

  1. Calculez d'abord une statistique de test en calculant le score moyen en utilisant la fonction de vote pour chaque élément dans les deux groupes, cela devrait conduire à deux vecteurs de taille 25.
  2. Comparez ensuite les deux résultats à l'aide de la fonction de comparaison, ce sera votre statistique de test.

Le problème est que nous ne connaissons pas la distribution de la statistique de test sous le zéro que les deux groupes sont les mêmes. Mais s'ils sont identiques, nous pourrions mélanger au hasard les observations entre les groupes.

Ainsi, nous pouvons combiner les données de deux groupes, les mélanger / permuter, choisir le premier n1 (nombre d'observations dans le groupe A d'origine) observations pour le groupe A et le reste pour le groupe B. Calculez maintenant la statistique de test pour cet échantillon en utilisant les deux étapes précédentes.

Répétez le processus environ 1000 fois et utilisez maintenant les statistiques du test de permutation comme distribution empirique nulle. Cela vous permettra de calculer une valeur de p, et n'oubliez pas de faire un bel histogramme et de tracer une ligne pour votre statistique de test comme ceci:

histogram permutation test l1

Maintenant, bien sûr, il s'agit de choisir les bonnes fonctions de vote et de comparaison pour obtenir un bon pouvoir. Cela dépend vraiment de votre objectif et de votre intuition, mais je pense que ma deuxième suggestion pour la fonction de vote et lal1La norme est un bon point de départ. Notez que ces choix peuvent faire et font une grande différence. L'intrigue ci-dessus utilisait lel1 norme et ce sont les mêmes données avec un l2 norme:

histogram permutation test l2

Mais selon le paramètre, je m'attends à ce qu'il puisse y avoir beaucoup d'aléatoire intrinsèque et vous aurez besoin d'une taille d'échantillon assez grande pour que la méthode passe-partout fonctionne. Si vous avez des connaissances préalables sur des choses spécifiques qui, selon vous, peuvent être différentes entre les deux groupes (par exemple, des éléments spécifiques), utilisez-les pour personnaliser vos deux fonctions. (Bien sûr, d'habitude, faites-le avant d'exécuter le test et ne choisissez pas les conceptions jusqu'à ce que vous obteniez quelque chose d'important s'applique)

PS me tirer un message si vous êtes intéressé par mon code (en désordre). C'est un peu trop long à ajouter ici mais je serais heureux de le télécharger.


J'aime vraiment cette idée.
Peter Flom - Réintègre Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.