Je préfère répondre sur la base de la méthodologie elle-même, plutôt que sur la manière de «corriger» la situation. Dans un autre contexte, j'ai aidé à travailler sur un système de notation et de classification et j'ai constaté que l'accord inter-évaluateurs était décevant. Deux voies ont été envisagées
- Modifier la façon dont les accords de notation ont été définis et identifier ceux qui semblaient "comprendre" la tâche, ou
- Affiner les définitions utilisées, ainsi que le guide et les exemples fournis aux évaluateurs, afin qu'ils puissent plus facilement comprendre comment évaluer les choses.
Dans le premier scénario, toute la méthodologie et les résultats pourraient être gaspillés simplement parce que la fiabilité inter-évaluateurs était faible. Il a indiqué que les définitions originales étaient mauvaises ou que les évaluateurs avaient reçu de mauvaises instructions. Si je poursuivais dans cette voie, j'étais sûr d'avoir des problèmes.
Dans le deuxième cas, l'accord entre les évaluateurs était très bon. Puisqu'ils ont évalué un grand nombre d'items, ils pouvaient également donner leur avis lorsqu'ils pensaient que les définitions et les directives originales étaient inadéquates. Au final, la méthodologie était très reproductible.
Sur cette base, je ne modifierais pas encore votre ensemble de évaluateurs, mais je reviendrais aux définitions et aux directives d'origine. Tout bricolage après la notation est un problème, mais il peut être utile comme contrôle de qualité. Il y a parfois des évaluateurs qui vont faire ce qu'ils veulent, peu importe les conseils donnés. Avec de bonnes méthodes statistiques, il est facile de les identifier et de pondérer leurs contributions de manière appropriée.
Maintenant, si je me trompe et que vous ne prévoyez pas de faire de collecte supplémentaire, c'est-à-dire que vos données sont déjà collectées et effectuées, ce que vous pouvez faire est PCA ou quelque chose comme ça, et voyez si vous pouvez avoir une idée de la façon dont les différents regroupement de médecins (ou de patients).
Les patients ont-ils été exposés à tous les médecins en même temps (par exemple via un enregistrement vidéo) ou ont-ils été exposés séquentiellement et ont-ils eu la possibilité de modifier leur présentation à chaque interaction? Dans ce dernier cas, il pourrait y avoir des problèmes avec les patients et non avec les médecins.