Que faire en cas de faible fiabilité inter-évaluateur (ICC)?

8

Contexte: Huit médecins ont chacun évalué les mêmes 54 patients sur une mesure de persuasion (échelle de 1-7 Likert). Le score moyen sur la mesure de persuasion sera finalement la mesure des résultats de mon expérience.

La fiabilité inter-évaluateurs a été quantifiée comme le coefficient de corrélation intraclasse (ICC), en utilisant le modèle d'effets aléatoires bidirectionnels avec cohérence. Malheureusement, la fiabilité inter-évaluateurs des huit médecins était faible (ICC = .350, mesures uniques). Dois-je quand même exécuter d'autres analyses planifiées avec ces données non fiables? Ou peut-il être justifié que j'inclus uniquement les médecins (c.-à-d. Les évaluateurs) ayant la plus grande fiabilité inter-évaluateurs? J'ai découvert qu'il y avait deux médecins avec une fiabilité inter-évaluateurs plus acceptable (ICC = .718, N = 2), mais je ne pense pas que ce soit une raison suffisante pour exclure les autres médecins des analyses. J'apprécierais vraiment toute référence à la littérature traitant de ce problème.

reliability agreement-statistics

— Leau
source

6

Je préfère répondre sur la base de la méthodologie elle-même, plutôt que sur la manière de «corriger» la situation. Dans un autre contexte, j'ai aidé à travailler sur un système de notation et de classification et j'ai constaté que l'accord inter-évaluateurs était décevant. Deux voies ont été envisagées

Modifier la façon dont les accords de notation ont été définis et identifier ceux qui semblaient "comprendre" la tâche, ou
Affiner les définitions utilisées, ainsi que le guide et les exemples fournis aux évaluateurs, afin qu'ils puissent plus facilement comprendre comment évaluer les choses.

Dans le premier scénario, toute la méthodologie et les résultats pourraient être gaspillés simplement parce que la fiabilité inter-évaluateurs était faible. Il a indiqué que les définitions originales étaient mauvaises ou que les évaluateurs avaient reçu de mauvaises instructions. Si je poursuivais dans cette voie, j'étais sûr d'avoir des problèmes.

Dans le deuxième cas, l'accord entre les évaluateurs était très bon. Puisqu'ils ont évalué un grand nombre d'items, ils pouvaient également donner leur avis lorsqu'ils pensaient que les définitions et les directives originales étaient inadéquates. Au final, la méthodologie était très reproductible.

Sur cette base, je ne modifierais pas encore votre ensemble de évaluateurs, mais je reviendrais aux définitions et aux directives d'origine. Tout bricolage après la notation est un problème, mais il peut être utile comme contrôle de qualité. Il y a parfois des évaluateurs qui vont faire ce qu'ils veulent, peu importe les conseils donnés. Avec de bonnes méthodes statistiques, il est facile de les identifier et de pondérer leurs contributions de manière appropriée.

Maintenant, si je me trompe et que vous ne prévoyez pas de faire de collecte supplémentaire, c'est-à-dire que vos données sont déjà collectées et effectuées, ce que vous pouvez faire est PCA ou quelque chose comme ça, et voyez si vous pouvez avoir une idée de la façon dont les différents regroupement de médecins (ou de patients).

Les patients ont-ils été exposés à tous les médecins en même temps (par exemple via un enregistrement vidéo) ou ont-ils été exposés séquentiellement et ont-ils eu la possibilité de modifier leur présentation à chaque interaction? Dans ce dernier cas, il pourrait y avoir des problèmes avec les patients et non avec les médecins.

— Itérateur
source

3

Choisir la meilleure valeur ICC sur 28 paires de cerises n'est certainement pas une bonne idée, car cette estimation de ICC est certainement optimiste.

Le manuel d'analyse de contenu de Neuendorf a une assez bonne discussion des options pour faire face à une mauvaise fiabilité dans le codage. La citation est:

Neuendorf, Kimberly A. The Content Analysis Handbook. Sage, Thousand Oaks, CA, 2002

Il y a un site Web d'accompagnement .

— DavidDLewis
source

Les liens ne fonctionnent plus

— Tom