Les deux méthodes reposent sur la même idée, celle de décomposer la variance observée en différentes parties ou composants. Cependant, il existe des différences subtiles entre les éléments et / ou les évaluateurs comme effets fixes ou aléatoires. En plus de dire quelle partie de la variabilité totale s'explique par le facteur entre (ou à quel point l'écart entre s'écarte de la variance résiduelle), le test F ne dit pas grand-chose. Au moins, cela vaut pour une ANOVA unidirectionnelle où nous supposons un effet fixe (et qui correspond à l'ICC (1,1) décrit ci-dessous). D'un autre côté, l'ICC fournit un indice borné lors de l'évaluation de la fiabilité de la notation pour plusieurs évaluateurs "échangeables", ou de l'homogénéité entre les unités analytiques.
Nous faisons généralement la distinction suivante entre les différents types de ICC. Cela découle des travaux fondateurs de Shrout et Fleiss (1979):
- Modèle à effets aléatoires unidirectionnel , ICC (1,1): chaque élément est évalué par différents évaluateurs qui sont considérés comme échantillonnés à partir d'un plus grand nombre d'évaluateurs potentiels, donc ils sont traités comme des effets aléatoires; l'ICC est alors interprété comme le% de la variance totale expliquée par la variance sujets / items. C'est ce qu'on appelle la cohérence ICC.
- Modèle à effets aléatoires bidirectionnel , ICC (2,1): les deux facteurs - les évaluateurs et les éléments / sujets - sont considérés comme des effets aléatoires, et nous avons deux composantes de variance (ou carrés moyens) en plus de la variance résiduelle; nous supposons en outre que les évaluateurs évaluent tous les éléments / sujets; l'ICC donne dans ce cas le% de variance attribuable aux évaluateurs + articles / sujets.
- Modèle mixte bidirectionnel , ICC (3,1): contrairement à l'approche unidirectionnelle, les évaluateurs sont ici considérés comme des effets fixes (pas de généralisation au-delà de l'échantillon en question) mais les éléments / sujets sont traités comme des effets aléatoires; l'unité d'analyse peut être la note individuelle ou la note moyenne.
Cela correspond aux cas 1 à 3 dans leur tableau 1. Une distinction supplémentaire peut être faite selon que nous considérons que les notations observées sont la moyenne de plusieurs notations (elles sont appelées ICC (1, k), ICC (2, k), et ICC (3, k)) ou non.
En somme, vous devez choisir le bon modèle (unidirectionnel vs bidirectionnel), et cela est largement discuté dans l'article de Shrout et Fleiss. Un modèle unidirectionnel a tendance à produire des valeurs plus petites que le modèle bidirectionnel; de même, un modèle à effets aléatoires donne généralement des valeurs inférieures à un modèle à effets fixes. Un ICC dérivé d'un modèle à effets fixes est considéré comme un moyen d'évaluer la cohérence des évaluateurs (car nous ignorons la variance des évaluateurs), tandis que pour un modèle à effets aléatoires, nous parlons d'une estimation de l' accord des évaluateurs (que les évaluateurs soient interchangeables ou non). Seuls les modèles bidirectionnels intègrent l'interaction évaluateur x sujet, ce qui pourrait être intéressant lorsque vous essayez de démêler des modèles de notation atypiques.
L'illustration suivante est facilement copier / coller de l'exemple de ICC()
la psych ensemble (données proviennent de Shrout et Fleiss, 1979). Les données consistent en 4 juges (J) évaluant 6 sujets ou cibles (S) et sont résumées ci-dessous (je suppose qu'elles sont stockées sous la forme d'une matrice R nommée sf
)
J1 J2 J3 J4
S1 9 2 5 8
S2 6 1 3 2
S3 8 4 6 8
S4 7 1 2 6
S5 10 5 6 9
S6 6 2 4 7
Cet exemple est intéressant car il montre comment le choix du modèle peut influencer les résultats, donc l'interprétation de l'étude de fiabilité. Les 6 modèles ICC sont les suivants (il s'agit du tableau 4 du document de Shrout et Fleiss)
Intraclass correlation coefficients
type ICC F df1 df2 p lower bound upper bound
Single_raters_absolute ICC1 0.17 1.8 5 18 0.16477 -0.133 0.72
Single_random_raters ICC2 0.29 11.0 5 15 0.00013 0.019 0.76
Single_fixed_raters ICC3 0.71 11.0 5 15 0.00013 0.342 0.95
Average_raters_absolute ICC1k 0.44 1.8 5 18 0.16477 -0.884 0.91
Average_random_raters ICC2k 0.62 11.0 5 15 0.00013 0.071 0.93
Average_fixed_raters ICC3k 0.91 11.0 5 15 0.00013 0.676 0.99
Comme on peut le voir, considérer les évaluateurs comme des effets fixes (donc ne pas essayer de généraliser à un plus grand nombre de évaluateurs) donnerait une valeur beaucoup plus élevée pour l'homogénéité de la mesure. (Des résultats similaires pourraient être obtenus avec le package irr ( icc()
), bien que nous devions jouer avec les différentes options pour le type de modèle et l'unité d'analyse.)
Que nous apprend l'approche ANOVA? Nous devons ajuster deux modèles pour obtenir les carrés moyens pertinents:
- un modèle à sens unique qui ne considère que le sujet; cela permet de séparer les cibles notées (MS entre groupes, BMS) et d'obtenir une estimation du terme intra-erreur (WMS)
- un modèle bidirectionnel qui considère sujet + évaluateur + leur interaction (quand il n'y a pas de répétitions, ce dernier terme sera confondu avec les résidus); cela permet d'estimer l'effet principal de l'évaluateur (JMS) qui peut être pris en compte si nous voulons utiliser un modèle à effets aléatoires (c'est-à-dire que nous l'ajouterons à la variabilité totale)
Pas besoin de regarder le test F, seuls les EM sont intéressants ici.
library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))
Maintenant, nous pouvons assembler les différentes pièces dans un tableau ANOVA étendu qui ressemble à celui montré ci-dessous (c'est le tableau 3 dans le papier de Shrout et Fleiss):
(source: mathurl.com )
où les deux premières rangées proviennent du modèle unidirectionnel, tandis que les deux suivantes proviennent de l'ANOVA bidirectionnelle.
Il est facile de vérifier toutes les formules dans l'article de Shrout et Fleiss, et nous avons tout ce dont nous avons besoin pour estimer la fiabilité d'une seule évaluation . Qu'en est-il de la fiabilité de la moyenne des évaluations multiples (quelle est souvent la quantité d'intérêt pour les études inter-évaluateurs)? D'après Hays et Revicki (2005), il peut être obtenu à partir de la décomposition ci-dessus en changeant simplement la MS totale considérée dans le dénominateur, à l'exception du modèle à effets aléatoires bidirectionnel pour lequel nous devons réécrire le rapport des MS.
- Dans le cas de ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS), la fiabilité globale est calculée comme (BMS-WMS) /BMS=0.443.
- Pour l'ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N), la fiabilité globale est (N • (BMS-EMS)) / (N • BMS + JMS-EMS) = 0,620.
- Enfin, pour l'ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS), nous avons une fiabilité de (BMS-EMS) /BMS=0.909.
Encore une fois, nous constatons que la fiabilité globale est plus élevée lorsque l'on considère les évaluateurs comme des effets fixes.
Références
- Shrout, PE et Fleiss, JL (1979). Corrélations intraclasses: Utilisées pour évaluer la fiabilité des évaluateurs . Bulletin psychologique , 86, 420-3428.
- Hays, RD et Revicki, D. (2005). Fiabilité et validité (y compris réactivité). Dans Fayers, P. et Hays, RD (éd.), Assessing Quality of Life in Clinical Trials , 2e éd., Pp. 25-39. Oxford University Press.