Classement global à partir de plusieurs listes classées


13

J'ai parcouru de nombreux documents disponibles en ligne, y compris ce forum sans aucune chance et en espérant que quelqu'un puisse aider un problème statistique auquel je suis actuellement confronté:

J'ai 5 listes de données classées, chacune contenant 10 éléments classés de la position 1 (meilleure) à la position 10 (pire). Par souci de contexte, les 10 éléments de chaque liste sont les mêmes, mais dans des ordres classés différents, car la technique utilisée pour décider de leur classement est différente.

Exemples de données:

            List 1      List 2      List 3     ... etc
Item 1     Ranked 1    Ranked 2    Ranked 1     
Item 2     Ranked 3    Ranked 1    Ranked 2
Item 3     Ranked 2    Ranked 3    Ranked 3
... etc

Je cherche un moyen d'interpréter et d'analyser les données ci-dessus afin d'obtenir un résultat final montrant le classement global de chaque élément en fonction de chaque test et de sa position, par exemple

Result
Rank 1 = Item 1
Rank 2 = Item 3
Rank 3 = Item 4
... etc

Jusqu'à présent, j'ai tenté d'interpréter ces informations à partir des tests de corrélation de Pearson, de corrélation de Spearman, de B de Kendall Tau et de Friedman. J'ai cependant constaté que ces résultats ont généralement jumelé mes listes (c.-à-d. Comparé la liste 1 à la liste 2, puis la liste 1 à la liste 3, etc.), ou ont produit des résultats tels que le chi carré, les valeurs P, etc. Les données.

Est-ce que quelqu'un sait comment je peux interpréter ces données dans une méthode statistiquement valable (à un niveau post-universitaire / doctorat applicable) afin que je puisse comprendre les classements globaux signalant l'importance de chaque élément de la liste à travers les 5 tests, s'il vous plaît? Ou, s'il existe un autre type de technique ou de test statistique que je peux examiner, j'apprécierais tout conseil ou conseil.

(Cela vaut peut-être aussi la peine d'être noté, j'ai également effectué des techniques mathématiques plus simples telles que les sommes, la moyenne, les tests minimum - maximum, etc., mais je ne pense pas qu'elles soient statistiquement suffisamment importantes à ce niveau).

Toute aide ou conseil serait grandement apprécié, merci pour votre temps.


1
Je trouve deux questions qui, correctement interprétées, semblent être des doublons (et fournissent donc déjà des réponses): stats.stackexchange.com/search?q=valuation+rank . Sont-ils adéquats? Sinon, veuillez nous aider à comprendre ce qui est spécial dans votre situation.
whuber

Merci pour votre réponse. J'ai jeté un coup d'œil à ces articles, et je ne sais pas s'ils ne sont pas ce que je recherche, ou si c'est ma compréhension en faute. J'ai l'impression dans ces articles que chacun des ensembles de données a de nombreuses variables de significations différentes et que les rangs peuvent être différents ou avoir plus de détails des valeurs entières que juste le rang. Je cherche juste un moyen statistiquement éprouvé de pouvoir dire «dans l'ensemble, l'élément le plus important est l'élément X, suivi par Y ... et enfin (ou le moins important) l'élément Z». J'envisage presque d'analyser ces rangs 1-10 comme des nombres simples
Liam

1
Un point majeur de ces discussions est qu'il n'existe pas une telle "méthode statistiquement prouvée". C'est une question d' évaluation : toute combinaison statistique de vos résultats reflète un sens des compromis entre eux. Par exemple , vos "objets" peuvent être des voitures et les "techniques" peuvent les classer selon divers attributs: coût, efficacité énergétique, puissance, confort, etc. Votre sens personnel du "meilleur" peut différer sensiblement du sens de quelqu'un d'autre et vous auriez tous les deux raison.
whuber

avez vous obtenu la reponse? veuillez laisser un commentaire ici stats.stackexchange.com/questions/347336/…
Ray Coder

Réponses:


7

Je ne sais pas pourquoi vous envisagiez des corrélations et des mesures similaires. Il ne semble rien y avoir de corrélation.

Au lieu de cela, il existe un certain nombre d'options, aucune vraiment meilleure que l'autre, mais selon ce que vous voulez:

Prenez le rang moyen, puis classez les moyennes (mais cela traite les données comme des intervalles)

Prendre le rang médian puis classer les médianes (mais cela peut entraîner des égalités)

Prenez le nombre de votes de 1ère place obtenus pour chaque élément et classez-les en fonction de ce

Prendre le nombre de votes de dernière place et les classer (inversement, évidemment) en fonction de cela.

Créez une combinaison pondérée de rangs, selon ce que vous jugez raisonnable.


4
Un point important soulevé dans les discussions auxquelles j'ai fait référence dans un commentaire - et je pense que c'est le noeud de tout le problème - est que toutes ces méthodes sont arbitraires . Il existe des méthodes objectives mais elles nécessitent l'utilisation d'informations non inhérentes aux données. C'est ce qui en fait un problème d' évaluation plutôt que de statistiques.
whuber

Quelle combinaison pondérée de grades proposeriez-vous?
Archie

4

Comme d'autres l'ont souligné, il existe de nombreuses options que vous pourriez envisager. La méthode que je recommande est basée sur les rangs moyens, c'est-à-dire la première proposition de Peter.

Dans ce cas, l'importance statistique du classement final peut être examinée par un test statistique en deux étapes. Il s'agit d'une procédure non paramétrique composée du test de Friedman et d'un test post-hoc correspondant, le test de Nemenyi . Les deux sont basés sur des rangs moyens. Le but du test de Friedman est de rejeter l'hypothèse nulle et de conclure qu'il existe des différences entre les éléments. Si tel est le cas, nous procédons au test Nemenyi pour savoir quels articles diffèrent réellement. (Nous ne commençons pas directement par le test post-hoc afin d'éviter une signification trouvée par hasard.)

Plus de détails, tels que les valeurs critiques pour ces deux tests, peuvent être trouvés dans l'article de Demsar .


2

Utilisez Tau-x (où le «x» fait référence à «eXtended» Tau-b). Tau-x est l'équivalent de corrélation de la métrique de distance Kemeny-Snell - prouvé être la métrique de distance unique entre les listes d'éléments classés qui satisfait toutes les exigences d'une métrique de distance. Voir le chapitre 2 de «Modèles mathématiques dans les sciences sociales» de Kemeny et Snell, également «Un nouveau coefficient de corrélation de rang avec application au problème de classement par consensus», Edward Emond, David Mason, Journal of Multi-Criteria Decision Analysis, 11: 17- 28 (2002).

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.