La statistique de Kappa ( ) est un indice de qualité qui compare l'accord observé entre 2 évaluateurs sur une échelle nominale ou ordinale avec l'accord attendu par le seul hasard (comme si les évaluateurs se précipitaient). Il existe des extensions pour le cas de plusieurs évaluateurs (2, pp. 284-291). Dans le cas des données ordinales , vous pouvez utiliser le ed pondéré , qui se lit comme d'habitude κ avec des éléments hors diagonale contribuant à la mesure de l'accord. Fleiss (3) a fourni des lignes directrices pour interpréter les valeurs de κ mais ce ne sont que des règles empiriques.κ κκκ
La statistique est asymptotiquement équivalente à l'ICC estimée à partir d'une ANOVA à effets aléatoires bidirectionnels, mais les tests de signification et SE provenant du cadre ANOVA habituel ne sont plus valides avec des données binaires. Il est préférable d'utiliser le bootstrap pour obtenir un intervalle de confiance (IC). Fleiss (8) a discuté du lien entre le kappa pondéré et la corrélation intraclasse (ICC).κ
Il convient de noter que certains psychométriciens n'aiment pas beaucoup car il est affecté par la prévalence de l'objet de mesure tout comme les valeurs prédictives sont affectées par la prévalence de la maladie considérée, ce qui peut conduire à des résultats paradoxaux.κ
Fiabilité interjuges pour noteurs peut être estimée avec le coefficient de Kendall de concordance, W . Lorsque le nombre d'éléments ou d'unités notés n > 7 , k ( n - 1 ) W ∼ χ 2 ( n - 1 ) . (2, p. 269-270). Cette approximation asymptotique est valable pour les valeurs modérées de n et k (6), mais avec moins de 20 éléments, les tests F ou de permutation conviennent mieux (7). Il existe une relation étroite entre le ρ de Spearman et le W de KendallkWn > 7k ( n - 1 ) W∼ χ2( n - 1 )nkFρWstatistique: peut être directement calculé à partir de la moyenne des corrélations de Spearman par paire (pour les observations non liées uniquement).W
La corrélation polychorique (données ordinales) peut également être utilisée comme mesure de l'accord inter-évaluateur. En effet, ils permettent de
- estimer quelle serait la corrélation si les notations étaient faites sur une échelle continue,
- tester l'homogénéité marginale entre les évaluateurs.
En fait, on peut montrer qu'il s'agit d'un cas particulier de la modélisation des traits latents, qui permet de relâcher les hypothèses de distribution (4).
Concernant les mesures continues (ou supposées), l'ICC qui quantifie la proportion de variance attribuable à la variation entre sujets est très bien. Encore une fois, les CI amorcés sont recommandés. Comme l'a dit @ars, il existe essentiellement deux versions - accord et cohérence - qui sont applicables dans le cas des études d'accord (5), et qui diffèrent principalement sur la façon dont la somme des carrés est calculée; l'ICC de «cohérence» est généralement estimé sans tenir compte de l'interaction article × évaluateur. Le cadre ANOVA est utile avec la conception de blocs spécifiques où l'on veut minimiser le nombre de notes ( BIBD ) - en fait, c'était l'une des motivations originales du travail de Fleiss. C'est aussi la meilleure façon de procéder pour plusieurs évaluateurs. L'extension naturelle de cette approche est appelée la théorie de la généralisabilité . Un bref aperçu est donné dans Rater Models: An Introduction , sinon la référence standard est le livre de Brennan, examiné dans Psychometrika 2006 71 (3) .
Quant aux références générales, je recommande le chapitre 3 de Statistics in Psychiatry , de Graham Dunn (Hodder Arnold, 2000). Pour un traitement plus complet des études de fiabilité, la meilleure référence à ce jour est
Dunn, G (2004). Conception et analyse des études de fiabilité . Arnold. Voir la revue dans l' International Journal of Epidemiology .
Une bonne introduction en ligne est disponible sur le site Web de John Uebersax, Intraclass Correlation and Related Methods ; il comprend une discussion sur les avantages et les inconvénients de l'approche ICC, en particulier en ce qui concerne les échelles ordinales.
Les packages R pertinents pour l'évaluation bidirectionnelle (mesures ordinales ou continues) se trouvent dans la vue des tâches psychométriques ; J'utilise généralement les packages psy , psych ou irr . Il y a aussi le package concord mais je ne l'ai jamais utilisé. Pour gérer plus de deux évaluateurs, le package lme4 est la voie à suivre car il permet d'incorporer facilement des effets aléatoires, mais la plupart des conceptions de fiabilité peuvent être analysées à l'aide de la aov()
car nous n'avons besoin d'estimer que les composantes de la variance.
Les références
- J Cohen. Kappa pondéré: accord de barème nominal avec possibilité de désaccord sur les barèmes de crédit partiel. Bulletin psychologique , 70 , 213-220, 1968.
- S Siegel et Jr N John Castellan. Statistiques non paramétriques pour les sciences du comportement . McGraw-Hill, deuxième édition, 1988.
- JL Fleiss. Méthodes statistiques pour les taux et les proportions . New York: Wiley, deuxième édition, 1981.
- JS Uebersax. Les coefficients de corrélation tétrachorique et polychorique . Site Web des méthodes statistiques pour les accords avec les évaluateurs, 2006. Disponible sur: http://john-uebersax.com/stat/tetra.htm . Consulté le 24 février 2010.
- PE Shrout et JL Fleiss. Corrélation intraclasse: permet d'évaluer la fiabilité de l'évaluateur . Bulletin psychologique , 86 , 420-428, 1979.
- MG Kendall et B Babington Smith. Le problème du classement m . Annals of Mathematical Statistics , 10 , 275-287, 1939.
- P Legendre. Coefficient de concordance . Dans NJ Salkind, rédacteur en chef, Encyclopedia of Research Design . Publications SAGE, 2010.
- JL Fleiss. L'équivalence du kappa pondéré et le coefficient de corrélation intraclasse comme mesures de fiabilité . Mesures éducatives et psychologiques , 33 , 613-619, 1973.