Calcul de la variance Kappa de Cohen (et erreurs standard)

La statistique Kappa ( $\kappa$ ) a été introduite en 1960 par Cohen [1] pour mesurer l’accord entre deux évaluateurs. Cependant, sa variance était une source de contradictions depuis un certain temps.

Ma question est de savoir quel est le meilleur calcul de variance à utiliser avec de grands échantillons. Je suis enclin à croire que celui testé et vérifié par Fleiss [2] serait le bon choix, mais ce ne semble pas être le seul publié qui semble être correct (et utilisé dans la littérature assez récente).

À l’heure actuelle, j’ai deux façons concrètes de calculer sa variance asymptotique sur un grand échantillon:

La méthode corrigée publiée par Fleiss, Cohen et Everitt [2];
La méthode delta que l'on peut trouver dans le livre de Colgaton, 2009 [4] (page 106).

Pour illustrer une partie de cette confusion, voici une citation de Fleiss, Cohen et Everitt [2], soulignons les miennes:

De nombreuses activités humaines ont été maudites avec des échecs répétés avant le succès final. La mise à l'échelle du mont Everest en est un exemple. La découverte du passage du Nord-Ouest est une seconde. La dérivation d'une erreur standard correcte pour kappa est une troisième .

Alors, voici un petit résumé de ce qui s’est passé:

1960: Cohen publie son article "Un coefficient d'accord pour les échelles nominales" [1], introduisant sa mesure d'accord corrigée du hasard entre deux évaluateurs appelée $\kappa$ . Cependant, il publie des formules incorrectes pour les calculs de variance.
1968: Everitt tente de les corriger, mais ses formules sont également incorrectes.
1969: Fleiss, Cohen et Everitt publient les formules appropriées dans le document "Grand échantillon d’erreurs standard de Kappa et de Kappa pondéré" [2].
1971: Fleiss publie une autre statistique $\kappa$ (mais différente) sous le même nom, avec des formules incorrectes pour les variances.
1979: Fleiss Nee et Landis publient les formules corrigées pour Fleiss ' $\kappa$ .

Au début, considérons la notation suivante. Cette notation implique que l'opérateur de sommation doit être appliqué à tous les éléments de la dimension sur lesquels le point est placé:

$\ \ \ p_{i.} = \displaystyle\sum_{j=1}^{k} p_{ij}$ $\ \ \ p_{.j} = \displaystyle\sum_{i=1}^{k} p_{ij}$

Maintenant, on peut calculer Kappa comme:

$\ \ \ \hat\kappa = \displaystyle\frac{p_o-p_c}{1-p_e}$

Dans lequel

$\ \ \ p_o = \displaystyle\sum_{i=1}^{k} p_{ii}$

$\ \ \ p_c = \displaystyle\sum_{i=1}^{k} p_{i.} p_{.i}$

$\kappa$

$\ \ \ \newcommand{\var}{\mathrm{var}}\widehat{\var}(\hat{\kappa}) = \frac{1}{N(1-p_c)^4} \{ \displaystyle\sum_{i=1}^{k} p_{ii}[(1-p_o) - (p_{.i} + p_{i.})(1-p_o)]^2 \\ \ \ \ + (1-p_o)^2 \displaystyle\sum_{i=1}^{k} \displaystyle\sum_{j=1 \atop i\not=j}^{k} p_{ij} (p_{.i} + p_{j.})^2 - (p_op_c-2p_c+p_o)^2 \}$

et sous l'hypothèse nulle, il est donné par:

$\ \ \ \widehat{\var}(\hat{\kappa}) = \frac{1}{N(1-p_c)^2} \{ \displaystyle\sum_{i=1}^{k} p_{.i}p_{i.} [1- (p_{.i} + p_{i.})^2] + \displaystyle\sum_{i=1}^{k} \displaystyle\sum_{j=1, i\not=j}^{k} p_{.i}p_{j.}(p_{.i} + p_{j.})^2 - p_c^2 \}$

La méthode de Congalton semble être basée sur la méthode du delta pour obtenir des variances (Agresti, 1990; Agresti, 2002); Cependant, je ne suis pas sûr de la nature de la méthode delta ni de la raison pour laquelle elle doit être utilisée. La variance , sous cette méthode, est donnée par: $\kappa$

$\ \ \ \widehat{\var}(\hat{\kappa}) = \frac{1}{n} \{ \frac{\theta_1 (1-\theta_1)}{(1-\theta_2)^2} + \frac{2(1-\theta_1)(2\theta_1\theta_2-\theta_3)}{(1-\theta_2)^3} + \frac{(1-\theta_1)^2(\theta_4-4\theta_2^2)}{(1-\theta_2)^4} \}$

dans lequel

$\ \ \ \theta_1 = \frac{1}{n} \displaystyle\sum_{i=1}^{k} n_{ii}$

$\ \ \ \theta_2 = \frac{1}{n^2} \displaystyle\sum_{i=1}^{k} n_{i+}n_{+i}$

$\ \ \ \theta_3 = \frac{1}{n^2} \displaystyle\sum_{i=1}^{k} n_{ii}(n_{i+} + n_{+i})$

$\ \ \ \theta_4 = \frac{1}{n^3} \displaystyle\sum_{i=1}^{k} \displaystyle\sum_{j=1}^{k} n_{ij}(n_{j+} + n_{+i})^2$

(Congalton utilise un indice plutôt que un , Mais cela semble vouloir dire la même chose. De plus, je suppose que devrait être une matrice de comptage, c'est-à-dire la matrice de confusion avant d'être divisée par le nombre d'échantillons liés par la formule ) $+$ $.$ $n_{ij}$ $p_{ij} = \frac{n_{ij}}{\mathrm{samples}}$

Une autre partie étrange est que le livre de Colgaton semble faire référence au document original de Cohen, mais ne semble pas citer les corrections apportées à la variance de Kappa publiée par Fleiss et al, pas avant qu’il ne discute de Kappa pondéré. Peut-être sa première publication a-t-elle été écrite alors que la véritable formule du kappa était encore confuse?

Est-ce que quelqu'un peut expliquer pourquoi ces différences? Ou pourquoi quelqu'un utiliserait-il la variance de la méthode delta au lieu de la version corrigée de Fleiss?

[1]: Fleiss, Joseph L .; Cohen, Jacob; Everitt, BS; Grandes erreurs types de kappa et de kappa pondéré. Psychological Bulletin, Vol 72 (5), Nov 1969, 323-327. doi: 10.1037 / h0028106

[2]: Cohen, Jacob (1960). Un coefficient d'accord pour les échelles nominales. Mesure éducative et psychologique 20 (1): 37–46. DOI: 10.1177 / 001316446002000104.

[3]: Alan Agresti, Catégorical Data Analysis, 2e édition. John Wiley and Sons, 2002.

[4]: Russell G. Congalton et Green, K .; Évaluation de l'exactitude des données de télédétection: principes et pratiques, 2e édition. 2009.

— César
source

certaines de vos parenthèses sont désactivées, pouvez-vous les réparer, s'il vous plaît? De même, vous pouvez formater les parenthèses imbriquées sous la forme {[(x + y) ^ z + a] ^ b - c} pour les rendre plus lisibles.

— StasK

aussi, donnez s'il vous plaît lui-même, et les formulations équivalentes alternatives si elles existent. En fonction des formulations alternatives spécifiques, les expressions de variance peuvent être plus faciles à obtenir. (Je pense à l'indice de Gini, pour lequel il existe environ cinq formulations pour les données iid qui impliquent des estimateurs de variance totalement différents pour des données d'enquête complexes.)

κ

$\kappa$

— StasK

Merci pour les commentaires. J'ai corrigé les formules et ajouté comment Kappa est calculé. La formulation de Kappa semble cohérente dans la littérature, seule sa variance ne le fait pas.

— Cesar

A propos, j'ai juste remarqué ce qui semble être une erreur d'impression sur le livre de Colgaton: il définit , mais ce vient de nulle part. Je suppose que c’était censé être , sinon je ne suis pas sûr que cela ait beaucoup de sens.

p_{c} = \sum_{i = 1}^{k} p_{i +} p_{+ j}

$p_c = \sum_{i=1}^k p_{i+} p_{+j}$

j

$j$

p_{c} = \sum_{i = 1}^{k} p_{i +} p_{+ i}

$p_c = \sum_{i=1}^k p_{i+} p_{+i}$

— Cesar

Je peux au moins vous donner un coup de main avec cette partie: "Je ne suis pas sûr de la méthode delta" - fr.wikipedia.org/wiki/Delta_method et de la variance qui vient d' ici

— Glen_b

Je ne sais pas laquelle des deux façons de calculer la variance est préférable, mais je peux vous donner un troisième moyen pratique et utile de calculer des intervalles de confiance / crédibles en utilisant l'estimation bayésienne du Kappa de Cohen.

Le code R et JAGS ci-dessous génère des échantillons MCMC à partir de la distribution a posteriori des valeurs crédibles de Kappa à partir des données.

library(rjags)
library(coda)
library(psych)

# Creating some mock data
rater1 <- c(1, 2, 3, 1, 1, 2, 1, 1, 3, 1, 2, 3, 3, 2, 3) 
rater2 <- c(1, 2, 2, 1, 2, 2, 3, 1, 3, 1, 2, 3, 2, 1, 1) 
agreement <- rater1 == rater2
n_categories <- 3
n_ratings <- 15

# The JAGS model definition, should work in WinBugs with minimal modification
kohen_model_string <- "model {
  kappa <- (p_agreement - chance_agreement) / (1 - chance_agreement)
  chance_agreement <- sum(p1 * p2)

  for(i in 1:n_ratings) {
    rater1[i] ~ dcat(p1)
    rater2[i] ~ dcat(p2)
    agreement[i] ~ dbern(p_agreement)
  }

  # Uniform priors on all parameters
  p1 ~ ddirch(alpha)
  p2 ~ ddirch(alpha)
  p_agreement ~ dbeta(1, 1)
  for(cat_i in 1:n_categories) {
    alpha[cat_i] <- 1
  }
}"

# Running the model
kohen_model <- jags.model(file = textConnection(kohen_model_string),
                 data = list(rater1 = rater1, rater2 = rater2,
                   agreement = agreement, n_categories = n_categories,
                   n_ratings = n_ratings),
                 n.chains= 1, n.adapt= 1000)

update(kohen_model, 10000)
mcmc_samples <- coda.samples(kohen_model, variable.names="kappa", n.iter=20000)

Le graphique ci-dessous montre un graphique de densité des échantillons MCMC de la distribution postérieure de Kappa.

Densité Kappa postérieure

En utilisant les échantillons MCMC, nous pouvons maintenant utiliser la valeur médiane comme une estimation de Kappa et utiliser les quantiles à 2,5% et 97,5% comme un intervalle de confiance / crédible à 95%.

summary(mcmc_samples)$quantiles
##      2.5%        25%        50%        75%      97.5% 
## 0.01688361 0.26103573 0.38753814 0.50757431 0.70288890

Comparez cela avec les estimations "classiques" calculées selon Fleiss, Cohen et Everitt:

cohen.kappa(cbind(rater1, rater2), alpha=0.05)
##                  lower estimate upper
## unweighted kappa  0.041     0.40  0.76

Personnellement, je préférerais que l’intervalle de confiance bayésien soit supérieur à l’intervalle de confiance classique, d’autant plus que j’estime que cet intervalle de confiance a de meilleures propriétés pour les échantillons de petite taille. Les analyses bayésiennes ont en général pour préoccupation que vous devez spécifier des croyances antérieures concernant la distribution des paramètres. Heureusement, dans ce cas, il est facile de construire des a priori "objectifs" en appliquant simplement des distributions uniformes sur tous les paramètres. Cela devrait rendre le résultat du modèle bayésien très similaire à un calcul "classique" du coefficient de Kappa.

Les références

Sanjib Basu, Mousumi Banerjee et Ananda Sen (2000). Inférence Bayésienne pour Kappa à partir d'études simples et multiples. Biometrics , Vol. 56, n ° 2 (juin 2000), p. 577-582

— Rasmus Bååth
source

Savez-vous s'il existe une prolongation pour plus de deux évaluateurs?

— Fomite