Fiabilité inter-évaluateur pour les données ordinales ou d'intervalle

Quelles méthodes de fiabilité inter-évaluateurs sont les plus appropriées pour les données ordinales ou d'intervalle?

Je pense que la "probabilité d'accord commune" ou la "Kappa" sont conçues pour des données nominales. Alors que "Pearson" et "Spearman" peuvent être utilisés, ils sont principalement utilisés pour deux évaluateurs (bien qu'ils puissent être utilisés pour plus de deux évaluateurs).

Quelles autres mesures conviennent aux données ordinales ou d'intervalle, c'est-à-dire plus de deux évaluateurs?

— shadi
source

La statistique de Kappa ( ) est un indice de qualité qui compare l'accord observé entre 2 évaluateurs sur une échelle nominale ou ordinale avec l'accord attendu par le seul hasard (comme si les évaluateurs se précipitaient). Il existe des extensions pour le cas de plusieurs évaluateurs (2, pp. 284-291). Dans le cas des données ordinales , vous pouvez utiliser le pondéré , qui se lit comme d'habitude avec des éléments hors diagonale contribuant à la mesure de l'accord. Fleiss (3) a fourni des lignes directrices pour interpréter les valeurs de mais ce ne sont que des règles empiriques. $\kappa$ $\kappa$ $\kappa$ $\kappa$

La statistique est asymptotiquement équivalente à l'ICC estimée à partir d'une ANOVA à effets aléatoires bidirectionnels, mais les tests de signification et SE provenant du cadre ANOVA habituel ne sont plus valides avec des données binaires. Il est préférable d'utiliser le bootstrap pour obtenir un intervalle de confiance (IC). Fleiss (8) a discuté du lien entre le kappa pondéré et la corrélation intraclasse (ICC). $\kappa$

Il convient de noter que certains psychométriciens n'aiment pas beaucoup car il est affecté par la prévalence de l'objet de mesure tout comme les valeurs prédictives sont affectées par la prévalence de la maladie considérée, ce qui peut conduire à des résultats paradoxaux. $\kappa$

Fiabilité interjuges pour noteurs peut être estimée avec le coefficient de Kendall de concordance, . Lorsque le nombre d'éléments ou d'unités notés , . (2, p. 269-270). Cette approximation asymptotique est valable pour les valeurs modérées de et (6), mais avec moins de 20 éléments, les tests ou de permutation conviennent mieux (7). Il existe une relation étroite entre le de Spearman et le de Kendall $k$ $W$ $n > 7$ $k(n − 1)W \sim \chi^2(n − 1)$ $n$ $k$ $F$ $\rho$ $W$ statistique: peut être directement calculé à partir de la moyenne des corrélations de Spearman par paire (pour les observations non liées uniquement). $W$

La corrélation polychorique (données ordinales) peut également être utilisée comme mesure de l'accord inter-évaluateur. En effet, ils permettent de

estimer quelle serait la corrélation si les notations étaient faites sur une échelle continue,
tester l'homogénéité marginale entre les évaluateurs.

En fait, on peut montrer qu'il s'agit d'un cas particulier de la modélisation des traits latents, qui permet de relâcher les hypothèses de distribution (4).

Concernant les mesures continues (ou supposées), l'ICC qui quantifie la proportion de variance attribuable à la variation entre sujets est très bien. Encore une fois, les CI amorcés sont recommandés. Comme l'a dit @ars, il existe essentiellement deux versions - accord et cohérence - qui sont applicables dans le cas des études d'accord (5), et qui diffèrent principalement sur la façon dont la somme des carrés est calculée; l'ICC de «cohérence» est généralement estimé sans tenir compte de l'interaction article × évaluateur. Le cadre ANOVA est utile avec la conception de blocs spécifiques où l'on veut minimiser le nombre de notes ( BIBD ) - en fait, c'était l'une des motivations originales du travail de Fleiss. C'est aussi la meilleure façon de procéder pour plusieurs évaluateurs. L'extension naturelle de cette approche est appelée la théorie de la généralisabilité . Un bref aperçu est donné dans Rater Models: An Introduction , sinon la référence standard est le livre de Brennan, examiné dans Psychometrika 2006 71 (3) .

Quant aux références générales, je recommande le chapitre 3 de Statistics in Psychiatry , de Graham Dunn (Hodder Arnold, 2000). Pour un traitement plus complet des études de fiabilité, la meilleure référence à ce jour est

Dunn, G (2004). Conception et analyse des études de fiabilité . Arnold. Voir la revue dans l' International Journal of Epidemiology .

Une bonne introduction en ligne est disponible sur le site Web de John Uebersax, Intraclass Correlation and Related Methods ; il comprend une discussion sur les avantages et les inconvénients de l'approche ICC, en particulier en ce qui concerne les échelles ordinales.

Les packages R pertinents pour l'évaluation bidirectionnelle (mesures ordinales ou continues) se trouvent dans la vue des tâches psychométriques ; J'utilise généralement les packages psy , psych ou irr . Il y a aussi le package concord mais je ne l'ai jamais utilisé. Pour gérer plus de deux évaluateurs, le package lme4 est la voie à suivre car il permet d'incorporer facilement des effets aléatoires, mais la plupart des conceptions de fiabilité peuvent être analysées à l'aide de la aov()car nous n'avons besoin d'estimer que les composantes de la variance.

Les références

J Cohen. Kappa pondéré: accord de barème nominal avec possibilité de désaccord sur les barèmes de crédit partiel. Bulletin psychologique , 70 , 213-220, 1968.
S Siegel et Jr N John Castellan. Statistiques non paramétriques pour les sciences du comportement . McGraw-Hill, deuxième édition, 1988.
JL Fleiss. Méthodes statistiques pour les taux et les proportions . New York: Wiley, deuxième édition, 1981.
JS Uebersax. Les coefficients de corrélation tétrachorique et polychorique . Site Web des méthodes statistiques pour les accords avec les évaluateurs, 2006. Disponible sur: http://john-uebersax.com/stat/tetra.htm . Consulté le 24 février 2010.
PE Shrout et JL Fleiss. Corrélation intraclasse: permet d'évaluer la fiabilité de l'évaluateur . Bulletin psychologique , 86 , 420-428, 1979.
MG Kendall et B Babington Smith. Le problème du classement m . Annals of Mathematical Statistics , 10 , 275-287, 1939.
P Legendre. Coefficient de concordance . Dans NJ Salkind, rédacteur en chef, Encyclopedia of Research Design . Publications SAGE, 2010.
JL Fleiss. L'équivalence du kappa pondéré et le coefficient de corrélation intraclasse comme mesures de fiabilité . Mesures éducatives et psychologiques , 33 , 613-619, 1973.

— chl
source

Trois références supplémentaires: 1. Beyond Kappa: Un examen des mesures d'accord inter-évaluateurs par Mousumi Banerjee, Michelle Capozzoli, Laura McSweeney et Debajyoti Sinha 2. Fiabilité inter-évaluateurs et accord des cotes de performance: comparaison méthodologique par John W. Fleenor, Julie B. Fleenor & William F. Grossnickle

— M. Tibbits

3. Méthodes statistiques pour évaluer l'erreur de mesure (fiabilité) dans les variables pertinentes à la médecine du sport. par Atkinson G & Nevill AM. La première référence est spécifique aux données ordinales et discute d'autres mesures au-delà du kappa pour les données ordinales. Les deuxième et troisième sont spécifiques aux données d'intervalle.

— M. Tibbits du

(+1) Merci beaucoup M. Tibbits! Je fournis généralement beaucoup de références et d'exemples lors de mes cours de psychométrie, y compris le premier que vous avez cité, mais je ne connaissais pas les deux autres.

— chl

En outre, le package ordinal permet une modélisation à plusieurs niveaux comme lme4 mais avec une régression ordinale.

— John

La corrélation intraclasse peut être utilisée pour les données ordinales. Mais il y a quelques mises en garde, principalement que les évaluateurs ne peuvent pas être distingués. Pour en savoir plus à ce sujet et comment choisir entre différentes versions de l'ICC, voir:

Corrélations intraclasses: utilisations pour évaluer la fiabilité des évaluateurs (Shrout, Fleiss, 1979)

— ars
source