J'ai plusieurs codeurs indépendants qui essaient d'identifier les événements dans une série chronologique - dans ce cas, je regarde une vidéo de conversation en face à face et je recherche des comportements non verbaux particuliers (par exemple, des hochements de tête) et le codage de l'heure et de la catégorie de chacun un événement. Ces données pourraient raisonnablement être traitées comme une série temporelle discrète avec un taux d'échantillonnage élevé (30 images / seconde) ou comme une série temporelle continue, selon ce qui est plus facile à utiliser.
J'aimerais calculer une certaine mesure de la fiabilité inter-évaluateurs, mais je m'attends à ce qu'il y ait une certaine incertitude quant au moment où les événements se sont produits; c'est-à-dire que je m'attends à ce qu'un codeur puisse, par exemple, coder qu'un mouvement particulier a commencé un quart de seconde plus tard que d'autres codeurs ne le pensaient. Ce sont des événements rares, si cela aide; généralement au moins plusieurs secondes (des centaines d'images vidéo) entre les événements.
Existe-t-il un bon moyen d'évaluer la fiabilité inter-évaluateurs qui examine ces deux types d'accord et de désaccord: (1) les évaluateurs conviennent-ils de l' événement qui s'est produit (le cas échéant), et (2) conviennent-ils du moment où il s'est produit? Le second est important pour moi parce que je suis intéressé à regarder le moment de ces événements par rapport à d'autres choses qui se passent dans la conversation, comme ce que les gens disent.
La pratique standard dans mon domaine semble être de diviser les choses en tranches de temps, disons 1/4 de seconde environ, d'agréger les événements signalés par chaque codeur par tranche de temps, puis de calculer le kappa de Cohen ou une mesure similaire. Mais le choix de la durée de tranche est ad-hoc, et je n'ai pas une bonne idée de l'incertitude dans le temps des événements.
La meilleure pensée que j'ai jusqu'à présent est que je pourrais calculer une sorte de courbe de fiabilité; quelque chose comme kappa en fonction de la taille de la fenêtre dans laquelle je considère deux événements comme étant codés en même temps. Je ne sais pas vraiment où aller à partir de là, cependant ...